2021-10-29

雑談、1on1、38名になりました。

はじめに

2021年9月7日のこのブログに書いた「定年後の暇をどうするか？を考える (その1)」

vengineer.hatenablog.com

の、「雑談、1on1」の続編です。

vengineer.hatenablog.com

どのくらいやったのか？

38名の内容は、下記のように、雑談、1on1、だけでなく、相談もありました。相談の方については、その後、1on1を行いました。

雑談、17名
1on1、21名 <= 11名

これ以外に相談、2名

1on1 の方が雑談より多くなりました。この2週間で10名の方と 1on1 をやりました。

8月 (4名) : 雑談(4名)
9月 (16名) : 1on1 (4名)、雑談(12名)
10月 (18名) : 1on1 (16名)、雑談(2名)

多い週では、5名の方と、雑談、1on1 をやりました。

今月、あとは、雑談が1回、予定しています。

1on1 では、1時間じゃ足りないですー

1on1 をやってみて感じたことは、1時間じゃ足りません。最初の30分から45分ぐらいであたしからの5つの質問に対する答えをお聴きます。その後の時間は、あたしに対する質問等の時間になります。最初の30分で5つの質問が終われれば、残り30分ありますが、時間が経ってしまいます。なので、1on1 をお願いする時に、1時間30分から最大2時間でお願いすることとしています。

不思議なんですが、変化があったタイミングの 1on1 が多かった

1on1 の 21名の方で前後半年ぐらいでお仕事に変化があった・ある人が多かったです。確認したら、21名中11名が変化があった人でした。

なので、質問の「今のお仕事って何？」が今までのお仕事というのが多かったです。

在宅勤務

この1年半で通勤という概念が無くなり、在宅勤務でも仕事ができることがわかってしまいました。定年になったら絶対に通勤はしたくないです(今もできれば通勤したくないです)。

1on1の中でも在宅でお仕事するのはごく当たり前になり、多くの人が在宅を希望している人がいるのを知りました。(会社に行って仕事をするのが好きという人もいるので全員が在宅勤務を望んでいるわけではないです)。

在宅勤務で仕事ができるということがOKなら、距離を気にすることはなくなります。どこに居ても、ネットワークの状態が良ければどこでも仕事ができるわけです。

おわりに

50名と、雑談、1on1 をするか？ 25名と、1on1 を行うのが当面の目標です。既に 1on1 を 21 名を行っているので、11月中旬ぐらいには達成できそうです。

そしたら、何をやるの？と言われることがあるんですが、

第2フェーズとしては、雑談、1on1 をやった人と、2回目をやろうと思っています。2回目のお題(内容)はまだ決めていませんが、同じ内容のことについて聴いてみたいと思っています。

たとえば、

今、何をやっているときが楽しいですか？
1年間好きなことができるようになったら、何をしたいですか？
制約が無くなったら、何をしたいですか？

とかです。

2021-10-28

Habana Labsの開発ツール(SynapseAI CoreとTCP用LLVM)のソースコードが公開されたよ。

はじめに

Intelが買収したHabana LabのGaudiがAWSで利用できるようになっているようですね。

habana.ai

上記のブログによると、AWSのGaudi x8 のシステムは、A100-40GB x8、V100-32G x8、V100-16GB x 8 に対して、

ResNet50 Training :
BERT Training

で、コスパが 2 - 2.5 倍いいようです。

Gaudi は、TSMC 16nm、NVIDIA V100は TSMC 12nm、A100は TSMC 7nm。なので、かなりいい性能なんでしょうね。

とは言え、今やResNet50やBERTをTraiingすることもあるのかは？疑問ですが。。。

そして、Habana Labは、Gaudi2 を TSMC 7nm で開発しているので、コスパはもっと良くなると思います。

vengineer.hatenablog.com

ソースコードが公開されていた

Hanaba Lab の Goya/Gaudi に対するソフトウェアとしては、

は、既に公開されていたのですが、なんと、

も 2021年9月10日にアップされていました(公開されたのがこの日なのかはわかりません)

調べてみたら、Habana Labs Opens Up The Code To Their AI Compiler, SynapseAI Coreがありました。この記事は9月10日なので、やっぱり9月10日にアップされたようです。この記事によると、最適化の部分はまだ公開されていないとなっています。この時点では、v1.0 です。

DeveloperのサイトのSynapseAIのところを確認したら、下記のように 2021年10月21日に、1.10 をリリースしたようです。

habana.ai

PyTorch 1.91
TensorFlow 2.51/2.60

をサポートしているようですね。リリースノートは、こちら。

おわりに

Intel の次世代GPUである Ponte Vecchiro が正式に出てくる来年2022年。それまでは、Habala LabのGaudiは IntelのAI用アクセラレータとして使われるとは思うのですが、その後、どうなるのだろうか？ AI用アクセラレータで、2世代までを作ったのは、

Graphcore : GC2/MK1 (TSMC 16nm)、GC200/MK1 (TSMC 7nm)
Cerebras Systems : CS-1 (TSMC 16nm)、CS-2 (TSMC 7nm)

そして、

Halaba Labs の Gaudi (TSMC 16nm) と開発中の Gaudi2 (TSMC 7nm)

しかないんですよ。

なので、とっても気になっています。

2021-10-27

TSMCの売り上げを覗いてみた

はじめに

世界がTSMCのFabを取り合いになり、値上げ(10-20％)になっている状況です。

ということで、今日はTSMCの売り上げについて調べてみたので、記録としてまとめました。

TSMCの売り上げ

TSMCの売り上げは、財務報告の Resentation Materialで知ることができます。

例えば、Q32021の売り上げは、このページに載っています。Net Revenue (US$ billions) のところに、14.88 とあります。14.88 Bドル、ざっくり1兆6000憶円です。かなり多いと思います。

2018Q1から2021Q3までの売り上げをプロットしたのが下の図です。2018Q4から2019Q1でいったん下がりましたが、その後は右肩上がりです。3年で倍になっています。

f:id:Vengineer:20211027082709p:plain

テクノロ ジー(プロセス)毎の売り上げ

プロセス毎の売り上げ率のデータもあります。2021Q3では、

5nm : 18 %
7nm : 34 % (7nm + 6nm)
10nm : 0 %
16nm : 13 % (16nm + 12nm)
20nm : 0 %
28nm : 10 %

ここまでで、75% です。また、7nm + 5nm で52％です。

下図は、2018Q1から2021Q3までの 7nm + 5nm の売り上げをプロットしたものです。

7nm は2018Q3 から始まり、2020Q1 で 30％超えになりました。
5nm は2020Q3 から始まり、2021Q1 で 20%になりました。

f:id:Vengineer:20211027083225p:plain

最大顧客

アニュアルレポートには、会社名は明記されていませんが、上位2社(1社の時もある)を Customer A/Customer Bとして、売り上げ高を公表しています。

2020年と2019年の情報は、2020年のアニュアルレポートの 5.4 Customer Trust の項目の表に載っています。その表の部分を引用します。

1位のCustomer Aは、Appleだと思うのですが、2位のCustomer Bがどこかわかりません。そこでGoogle君に聞いてみたら、出てきました。

f:id:Vengineer:20211027084014p:plain

どうやら、Hi-Siliconのようです。説明のために表を引用します。Hi-SiliconはHuaweiの半導体子会社です。2021年の売り上げが0％になったのは、あの件でTSMCを利用できなくなったからです。

f:id:Vengineer:20211027084342p:plain

2019年では上位8社で73.9％、2020年は81.3％、2021年は上位7社で71.5％も占めています。

2020年の売り上げにおいて、5nm は 90,934,485 K台湾ドル、7nm は 394,836,964 K台湾ドルです。Customer Aの売り上げは 336,775,511 K台湾ドル、Customer Bの売り上げは 167,390,758 K台湾ドルです。 2020年において、5nm を使ったチップはAppleの A14と M1 がメインだったので、5nm プロセスだけで、 90,934,485 K台湾ドル、台湾ドルが 4円ぐらいなのでざっくり3600憶円も買っていることになります。

おわりに

AppleがTSMCに2020年に支払った金額は 336,775,511 K台湾ドル、日本円にして、1兆3471憶円。この金額けた違いですが、下記のニュースによると、AppleはGoogleから年間1兆6500億円のリベートをもらっています。つまり、TSMCへの支払いはGoogleからのリベートで賄えちゃうので実質無料なんですよね。(笑).

とはいえ、SoC だけじゃ、iPhone/iPad/Mac は作れないですが。

forbesjapan.com

追記

2021年10月31日の半導体チップの雑談ネタとして、TSMCの売り上げについてお話しました。

毎週日曜日の11:00-12:00に半導体チップの雑談をやっています。

来週のお題は、「TSMCの売り上げ」ですね。

来週10/31(日)のGoogle Meetは、https://t.co/dNXhoFTDZL
です
— Vengineer＠ (@Vengineer) 2021年10月27日

その中で、熊本にTSMCが半導体工場を作る話になって、下記の記事を覗いてみたら、20 nm っぽい。20 nm って、2021Q3の売り上げだと、0% なんですよね。ということは、TSMCとしては売り上げが無い(たぶん、少ない) 20 nm を日本に移せれば嬉しいし、日本には無いプロセスの工場ができるのも嬉しい。おまけに投資額も抑えられる。。ということで、Win-Winの関係なんじゃないかなー、と思った次第です。

www.nikkei.com

そして、服部さんのマイナビの記事：国・地域別にみるIC生産能力、日本は3位も先端ロジックの製造には非対応の下図(説明のために引用します。この図では、日本だけ、<40nm - >= 20nm がぽっかり抜けているところに、マッチしそうです。

28 nm というお話もありますが、

www.asahi.com

2021-10-25

Graphcoreが IPU-POD128/IPU-POD256をアナウンス

はじめに

Graphcoreは、Cloudサービスを提供しています。基本的には、16個のチップを搭載した IPU-POD16 と 64個のチップを搭載した IPU-POD64 によるものです。

IPU-POD128/IPU-256POD

今回は、IPU-POD64を2個接続した IPU-POD128 と 4個接続した IPU-POD256 をアナウンスしました。

www.graphcore.ai

性能

RESNET50 v1.5のTensorFlow Traiingに対しては、

IPU-POD16 : 29,565 images/sec
IPU-POD64 : 102,320 images/sec (87% up)
IPU-POD128 : 186,553 images/sec (91% up)
IPU-POD256 : 355,021 images/sec (95% up)

BERT-LARGE Ph1 (SL128) TensorFlow

IPU-POD16 : 3,665 seq/sec
IPU-POD64 : 12,908 seq/sec (88% up)
IPU-POD128 : 25,097 seq/sec (97% up)

IPU-POD256 のデータはありませんね。

RESNET50 v1.5 よりもBERT-LARGEの方がスケールしていますね。

どのように、IPU-POD間を接続しているのか？

下図を説明のために引用します。IPU-POD64間の接続は、IPU-M2000内のIPU-Gatewayから出ている GW-Links (100Gb)にて両サイドのIPU-POD64内の同じ位置のM2000と接続しています。

最大64のIPU-POD64と接続できるようです。

f:id:Vengineer:20211024104332p:plain

おわりに

Graphcoreは現在、TSMC 3nm (ここでは、MK3と呼ぶことにします)での実装をしているようです。

TSMC 16nm の MK1 => TSMC 7nm の MK2 では、基本的には内部SRAMを増やした(300MB => 900MB) に増やしたためです。内部SRAMで足りなくなると、IPU-Gatewayに接続しているDDR4メモリにアクセスすることになります。MK2からIPU-Gatewayとの間は、PCIe Gen4 x8 相当(MK2はPCIe Gen4 x16であるが、IPU-Gateway側がPCIe Gen3 x16であるため、結果的に PCIe Gen4 x8になっている)で接続しています。

Graphcoreでは内部SRAMが多いので、IPU-GatewayのDDR4へのアクセスレイテンシーは隠蔽できると言っているが、MK3 ではどうなるのでしょうか？もしこの部分がボトルネックになっているのなら、MK3のPCIe GenX を変えるのではなく、IPU-Gateway の方を変える必要があるんじゃないのかな？と思っています。

候補としては、Ampere ComputingのAltraなんかいいと思います。PCIe Gen4 x16 が8個付いています。ただし、100GbEが無いので外部にチップを付ける必要はありますね。

2021-10-24

TSMCの売り上げを眺めてみた

はじめに

今日は、TSMCの売り上げについて、ちょっと調べたので、記録として残します。

元データは、TSMCの財務報告のサイトの各四半期のPresentation Materialからです。

2018年Q1から2021年Q3までの売り上げデータを眺めました

売り上げ

下図は、2018年Q1から2021年Q3までのQ毎の売り上げです。2019年Q1から右肩上がりです。

特に2020年Q3から急上昇です。

f:id:Vengineer:20211024101051p:plain — TSMCのQ毎の売り上げ

各プロセス毎に売り上げ

現在のTSMCのプロセスは、下記のように分類しています。

28nm
20nm
16nm (12nm)
10nm :
7nm (6nm)
5nm (4nm)
3nm

4nm と 3nm はまだ量産は始まっていません。

7nm は、2018年Q3から始まり、2019年Q4には35％になりました。
5nm は、2020年Q3から始まり、2020年Q4では20％になりました。
7nm と 5nm の合計は、2020年Q3の43％から2021年Q3では52％になりました。

また、16nm/10nm/7nm の割合は、2019年Q3から2020年Q3までは、50％を超えています。

f:id:Vengineer:20211024102128p:plain そして、下図は2018年Q1から2021年Q3までの各プロセス毎の売り上げパーセンテージです。

おわりに

TSMCは最先端プロセスとその1つ前の世代のプロセスでだいたい50％の売り上げになっているのが分かりました。

なので、最先端プロセスへの投資が重要なんでしょうかね。

2021-10-20

Apple M1 Pro と M1 Max

はじめに

Appleが M1 Pro/M1 Max搭載の MacBook Proを発表しましたね。

今日のブログは、M1 Pro/M1 Max について、見ていきたいと思います。

www.apple.com

14:10 から M1 Pro/M1 Maxの説明があります。何故か？野外でのビデオです。

なお、下記の画像は、説明のために、AppleのEventからの引用しています。

M1 Pro

Package f:id:Vengineer:20211020095117p:plain

Silicon f:id:Vengineer:20211020095143p:plain

Block diagram (コメント付けました) f:id:Vengineer:20211020095223p:plain

M1 Max

Package f:id:Vengineer:20211020095258p:plain

Silicon f:id:Vengineer:20211020095330p:plain

Block diagram (コメント付けました) f:id:Vengineer:20211020095815p:plain

M1 / M1 Pro / M1 Max の Silicon の比較

f:id:Vengineer:20211020095915p:plain

M1 Pro と M1 Max の大きな違い

下図は、Appleの注文サイトからの引用です。4台のディスプレイを接続できるのは、M1 Max搭載機のみです。何故ならば、M1 Pro には Display Engine が M1 Max に比べて半分だからです。

f:id:Vengineer:20211020091919p:plain

おわりに

Alder LakeのAVX512は、P-coresでのみ使用可だけど、E-coresを無効化しないと使えないと

はじめに

Intelの Hybrid CPU architectureである Alder Lake (ADL) は、Golden Cove という Performance Cores (P-cores) が8個と、Atom系の Gracemont というコア Efficient Cores (E-cores) が8個の構成になっています。

このHybrid CPU architecture では、モバイルデバイス(スマホ)では当たり前になっています。Armのbig.LITTLEがそれです。

Intelの Alder Lake では、P-cores では各コアに対してL2が付いていますが、E-cores に対しては4コアで1つのL2を共有します。Appleの A14/A15 も同じように P-cores(2個) では各コアがL2を持ち、E-cores では4コアで1つのL2を共有します。

このブログでも、Alder Lake は2021年9月17日でも取り上げています。

vengineer.hatenablog.com

AVX512 の扱い

Intel® Codename Alder Lake (ADL) Developer Guideによると、

AVX512 は、E-cores を有効にすると、使えないようです。何故なら？ P-cores に AVX512は実装されているが、E-Cores には AVX512 は実装されていないので。。。なので、AVX512 を使いたいときは、BIOSにて E-cores を無効にする必要があるようです。

SKUs (Stock-Keeping Units)

Laptop では、

P2 : 2C + 8A + GPU (96EU)
P1 : 6C + 8A + GPU (96EU)

Desktop では、

S1 : 6C + 0A + GPU (32EU)
S2 : 8C + 8A + GPU (32EU) => Intel Core i9-12900K, Core i7 12700K, Core i5 12600K

Laptop の GPUが96EUで、Desktop の GPU が32EUなので、Desktopの場合はGPUを外部に接続する前提だからだと思います。

Desktop の 6C+ 0A は、Hybridの意味が無くなりますが、P-cores を速い周波数で動かすという意味なのでしょうかね。

その他の情報(復習)

DDR5 対応
PCIe Gen5 対応

おわりに

AVX512を使うには、P-cores だけにしないとダメなんですね。。。