Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

GoogleもArmサーバー用SoCを開発!

はじめに

ずーと噂だった Google の Armサーバーの件。Googleから公式に発表がありましたね。

Introducing Google’s new Arm-based CPU | Google Cloud Blog

Google Axion

下図は、上記のGoogleのブログから説明のために引用します。

この図、短辺側に DRAM を実装していますね。

AMD EPYC と同じスタイルですね。。。EPYCの場合は長辺は CCD と PCIe/Infinity Fabric の部分ですが。。

vengineer.hatenablog.com

CPUコアは、Neoverse V2 のようです。となると、NVIDIA Grace と同じですね。プロセスは、TSMC 5nm(4nm) ですかね。

ArmサーバーSoC

と Cloud Service の 3社がそれぞれ独自の Arm サーバー用SoCを発表しました。

Axion のコア数、どのくらいですかね。。。

おわりに

下記のブログ、2020年10月20日に書いたものです。

vengineer.hatenablog.com

このブログの最後に、

今後、5年ぐらいで、x86-64 vs Arm (AArch64) のデータセンターの攻防になる可能性があります。スマホはArm、PCはx86-64、データセンターはx86-64だった2010年代からスマホはArm、PCはx86-64/Arm、データセンターはx86-64/Arm になっていくのではないでしょうか?

今年は2024年。NVIDIAが DGX GB100 NVL72 にて、Arm ベースのGraceをホストとしてものを今年のGTC2024にて中心においていました。

そう、上記の予想が今、着実に進んでいます。。。

関連ブログ

vengineer.hatenablog.com

vengineer.hatenablog.com

Google TPU v6e/v6p の発表時期を妄想する

はじめに

Google TPUに調べてみたら、面白いものを見つけました。

Google TPU v5e/v5p に開発時期です。

TPU v5e/v5p の開発時期

下記は、とある人のLinkedinの職歴の部分です。説明のために引用します。

  • TPU v5e and v5p : 2020.10 - 2021.11 (1年2か月)
  • TPU v4, TPU v4i, VCPU & IPU (Mount Evans) : 2017.10 - 2020.10
  • TPU v2, Edge TPU : 2015.7 - 2017.10

このブログで v4i を取り上げたのは、2021.6.28 の

v4 を取り上げたのは、2021.5.19

上記の職歴の 2020.10 から半年ぐらい後

v5e が発表されたのが、2023.8、v5p が発表されたのは、2023.12

上記の職歴の 2021.11 から2年近く。。。

では、v5e/v5p の後は、下記のように、2021.11 - 2023.4 になっていて、Future Systems Silicon Design とあります。

今は、2024.4 なので 1年は経っている。。となりと、Silicon は既にあって動いている。。。

もうひとり

こちらは、Physical Designの人。説明のために引用します。下記にあるように、自己紹介でTPU v3, v4, v5, v6 の Led Physical design and implementation team とあります。

職歴のところ。説明のために引用します。2017..4 - 2023.2 。。v6 の Physical design もやったということなので。。。

おわりに

2023.2 - 2023.4 で v6 の Physical design は終わっているとなると、製造に半年で、昨年(2023年)内にはESが上がってきていそうです。。

日曜日(2024.04.13)の半導体チップ雑談でも出てきましたが、TPU v5p/v5e までは ChatGPT が出てくる前が前提。

気になるのは、「Future Systems Silicon Design」。

これは、何を意味するのでしょうかね。

Linkedin

凄ーく、役に立っていますよ。。。

Google TPU v6 は、TSMC 3nmっぽい?

はじめに

下記のブログに書いたように、Boradcomの資料からGoogle TPUのロードマップがわかりました。

vengineer.hatenablog.com

今日は、TPU v6 は TSMC 3nm で作っているのかを確認していきます。

TPU のロードマップ

Broadcomの資料に下記の図が載っていました。説明のために引用します。

2024 - 2025 に、2 die のプロダクトが2つあることを示しています。

TPU v5e/v5p が TSMC 5nm なので、TPU v6 は TSMC 4nm または、TSMC 3nm になるのだと妄想しています。

Linkedin を調べていたら、見つけました

この方、TPU Hardware Engineer at Google とあり、2020年4月からGoogleです。その前は、TSMC(2017.11 - 2020.4) 、その前は Oracle (2010.2 - 2017.10) 、その前は Sun Microsystems (2000.9 - 2010.2) です。

自己紹介のs最初のところに、

• Physical and circuit design engineer with extensive experience designing high-speed, low-power, digital chips spanning many sub-micron technology nodes (including 3nm, 5nm, 7nm, 10nm, and 16nm FinFET plus older planar nodes)

• Senior manager and technical lead for low-power and high-performance standard cell libraries across a wide range of technology nodes (3nm to 130nm) supporting aggressive customer specs. Cross-functional and cross-location collaboration with customers and with headquarters in Taiwan.

とあります。

TPU v5e/v5p の開発はたぶん、2020年頃から始まっているので、上記の 3nm と 5nm のプロダクトは、Google TPUっぽいです。

となると、

  • TPU v5e/v5p : TSMC 5nm
  • TPU v6 : TSMC 3nm

となりますね。

おわりに

Google san 、TSMCから Senior Techinical Manager からの人が居るので、TSMCの内情もかなり知っていることになりそうですね。。。

Intel NPU Linix driverを公開? Meteor Lake は、Windows 11だけでなく、Ubuntu 20 でも使えるって

はじめに

Xの投稿に、Intel NPUのLinux driverの情報が流れてきました。

www.phoronix.com

Linux NPU Driver v1.2.0

github に公開されています。

github.com

上記の記事にもありますが、Driverの構造の図を引用します。

この中に、NPU Compiler がありますね

NPU Compiler

NPU Compiler は、OpenVINO の plugin のようです。

github.com

NPU Plugin では、Meteor Lake では、Windows 11 だけでなく、Ubuntu 20? をサポートするようです。

おわりに

AI PC は、Meteor Lake からですかね。。。AIって、このNPUがあるからですよね。。。これのために、ウン万円増はないよな。。。

関連記事

https://www.tomshardware.com/pc-components/cpus/intel-shares-new-ai-pc-definition-launches-ai-pc-acceleration-programs-and-core-ultra-meteor-lake-nuc-developer-kits-at-ai-conference

Google TPU の nickname

はじめに

SemiAnalysisに、Google TPU の nickname が載っています。

www.semianalysis.com

Google TPU の nicknae

  • v4 : Pufferfish
  • v4i : Pufferlite
  • v5p : Viperfish
  • v5e : Viperlite
  • v6p : Ghostfish
  • v6e : Ghostlite
  • v7 : Sunfish
  • v7e : Sunlite

のようです。

Puffer, Viper, Ghost, Sun

v7p ではなく、v7 なんですね。

Broadcom の資料と一致?

下記のブログでも紹介した Broadcom の #Customer 1 の ところ、たぶん、いや、絶対に Google と一致しますね。

vengineer.hatenablog.com

おわりに

どうやって、知ったのでしょうか?

発表済みのものの nickname はともかく、これから出てくるものの nickname って、どうやって知ったのだろうか。。。まー、。。。

Intel Habana Gaudi 3 の詳細、Training では H100よりちょっといい、InferenceではH200よりちょっと悪い!感じですかね

はじめに

Intel が Gaudi 3 の詳細を「Intel Vision 2024」で発表しました。

www.intel.com

詳細が PC Watch の下記の記事にあります。そこに載っているスライドを引用します。

pc.watch.impress.co.jp

Gaudi 3

2023年5月には tape out

vengineer.hatenablog.com

Gaudi 3 の詳細

www.intel.com

Gaudi 3 の White PaperGaudi 2 の White Paper

White Paperによると、

  • 48 x 112Gbs PAM4 SerDes

双方向で 1200GB/s ですね。NVIDIA H100 の NVLINK v4 (100Gbps PAM4 x 2) x 18 の 双方向で 900GB/s を超えていますね。

White Paperより引用します。

  • L2のメモリ帯域は、19.2 TB/s
  • L3のメモリ帯域は、6.4TB/s

The Intel® Gaudi® 3 accelerator memory subsystem is equipped with L2 and L3 caches, which are coupled to each DCORE and HBM memory channels respectively.

HBM2e のチャネル (128bit x 8 channels)

下記に、Gaudi 2 (左)、Gaudi 3 (右) に並べてみました。基本的には同じですね。

  • Gaudi : 16nm / TPC x 8 / MME x 1 / HBM2 32GB/1TB/s, SRAM 24MB, Ethernet 10 x 100Gb, TDP 350W
  • Gaudi 2 : 7nm / TPC x 24 / MME x 2 / HBM2e 96(16)GB/2.45TB/s, SRAM 48MB, Ethernet 24 x 100Gb, TDP 600W
  • Gaudi 3 : 5nm / TPC x 32 x 2 / MME x 4 x 2 / HBM2e 128(16x8)GB/3.7TB/s, SRAM 48MB x 2, Ethernet 24 x 200Gb, TDP 900W(OAM)/600W(PCIe)

Gaudi => Gaudie 2 : TPC が 3倍、MME が 2倍、メモリ容量が3倍、メモリ帯域が 2.45倍、Ethernetが 2.4 倍と。ざっくり 2 - 2.4 倍ぐらい性能が上がるっぽい Gaudi 2 => Gaudi 3 : TPC が 2.66倍、MME が 4倍、メモリ容量が 1.3倍、メモリ帯域が 1.5倍、Ethernetが 2 倍、こちらはかなりバラけていますね。

Gaudi 2 => Gaudi 3 になって、MME が 4倍になったけど、メモリ帯域は 1.5倍、Ethernet が 2 倍。。。これって、まだまだ計算機の方が足らなかったのでしょうかね。。。

Node

Node数は、

  • 1, 64, 512, 1024 まではサポートできるようですね。1024ノードだと、8192 x Gaudi 3 なので、Google TPU v5p ぐらいのクラスタは構築できるのですね。

Node内の構成。各Gaudi 3 からは3組のEthernet(200Gb) が出ていて、Nodeからは 800GbE x 6 にして出していますね。

24 - 3 = 21 を使って、各 Gaudi 3 間を接続しています。どのように接続しているのでしょうか? 1つの Gaudi 3 が他の7個の Gaudi 3 と接続するのなら、3 x 200GbE で接続することになりますね。。。これは Node 外への 3 x 200GbE と同じですね。

Gaudi 2 の時は、24 x 100GbE だったので、3 x 100GbE であり、Gaudi の 時は、12 x 100GbE なので、Node内の各Gaudi は 1 x 100GbE で、Node 間では、各Gaudi から 3 x 100GbE が出ていました。

NVIDIA H100 との比較

Training

  • LIama2 7B : 1.5x
  • LIama2 13B : 1.7x
  • GPT3-175B : 1.4x

ということです。でも、H100 は メモリ容量が 80GB でメモリ帯域は 3TB/s。Gaudi 3は メモリ容量が128GB、メモリ帯域は 3.7TB/s。メモリ帯域が 1.23倍なのでこの部分を考慮しないと。

となると、

  • LIama2 7B : 1.5x / 1.23 = 1.22x
  • LIama2 13B : 1.7x = 1.38x
  • GPT3-175B : 1.4x = 1.14x

です。

Inferenceでは、H200と比較しています。LIama とありますが、NVIDIA H200では LIama2 なので間違えだとおもいます。

  • Llama2-7B : 0.8 - 1.0
  • LIama2-70B : 0.8 - 1.1
  • Falcon 180B : 1.1 - 3.8

LIama2 では、NVIDIA H200よりはちょっと遅いぐらいですね。H200のメモリ帯域は4.8TB/sなのでその分速い感じですね。Gaudi 3 も HBM2e ではなく、HBM3や HBM3e にすれば H200 を超えると思います。

おわりに

Intel Vision 2024」に、Naveen Rao さんがいらっしゃいました。

Intel CEOの Pat さんとツーショット

Rao さん、Intelが買収した Nervana Systems の CEO さんです。。。

HBM3 ではなく、HBM2eな理由

"Our methodology was to use only IPs that were already proven in silicon before we tape out. At the time we taped out Gaudi3 there was simply no available physical layers that were validated to meet our standards," COO Eitan Medina told The Register

Meta MTIA v2 は、TSMC 5nmで、MTIA v1 の強化版、次は、2 die + HBM へ

はじめに

Meta が MTIA v2 をアナウンスしました。

ai.meta.com

MTIA v1 はこちら

ai.meta.com

Meta MTIA v2

下記の die shot は上記の Meta のサイトから説明のために引用します。

下記は、ブロック図です。同様に説明のために引用します。

カッコの中は、MTIA v1 です。

  • TSMC 5nm (7nm)
  • frequency : 1.35GHz (800MHz)
  • die size : 25.6 x 16.4, 421mm2 (19.34 x 19.1, 373mm2)
  • package : 43mm x 43mm (50mm x 40mm)
  • Voltaga : 0.85V (0.67 V logic, 0.75 V memory)
  • TDP : 90W (25W)
  • PCIe : x8 Gen4 (x8 Gen5)
  • GEMM TOPS : 354 TFLOPS (INT8), 177 TFLOPS (FP16/BF16) (3.2 TFLOPS(INT8), 16 TFLOPS(FP16BF16)
  • SRAM : 256MB (128MB)
  • SRAM BW : 2.7 TB/s (800 GB/s)
  • DRAM : LPDDR5 128GB (LPDDR5 64GB)
  • DRAM BW : 204.8 GB/s (176 GB/s)

Board

下記はBoardです。同様に説明のために引用します。TDP が 90W なので、M.2 みたいな形状には入らないので、PCIe の長いボードになっていますね。たぶん、12枚入っていると思います。

Boardには、2個の MTIA v2 が載るのですね。でも、LPDDR5は、各辺1個の4個しかないのですが。となると、128GB/4 = 32GB になりますね。裏にも4個のっていると、16GBなので物はありますが。。。

Broadcom の資料のものと比較する

vengineer.hatenablog.com

に書いたBroadcomの資料に載っていたものと並べてみました。

同じですね。

おわりに

ということで、MTIA v2 が発表されました。

次は、2 die の下記のものですね。。。Broadcomの資料から説明のために引用します。

関連記事

www.nextplatform.com

上記の semianalysis に

There is also up to 128GB of LPDDR5-5500 on a 256-bit bus running at 176GB/s.

とあります。

176GB x 8 / 256 = 5.5Gbps

となると、16bit x 16 個。64bitのLPDDR5 なのかな? 64GB / 4 = 16GB, 128GB / 4 = 32GB