Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Google TPU の nickname

はじめに

SemiAnalysisに、Google TPU の nickname が載っています。

www.semianalysis.com

Google TPU の nicknae

  • v4 : Pufferfish
  • v4i : Pufferlite
  • v5p : Viperfish
  • v5e : Viperlite
  • v6p : Ghostfish
  • v6e : Ghostlite
  • v7 : Sunfish
  • v7e : Sunlite

のようです。

Puffer, Viper, Ghost, Sun

v7p ではなく、v7 なんですね。

Broadcom の資料と一致?

下記のブログでも紹介した Broadcom の #Customer 1 の ところ、たぶん、いや、絶対に Google と一致しますね。

vengineer.hatenablog.com

おわりに

どうやって、知ったのでしょうか?

発表済みのものの nickname はともかく、これから出てくるものの nickname って、どうやって知ったのだろうか。。。まー、。。。

Intel Habana Gaudi 3 の詳細、Training では H100よりちょっといい、InferenceではH200よりちょっと悪い!感じですかね

はじめに

Intel が Gaudi 3 の詳細を「Intel Vision 2024」で発表しました。

www.intel.com

詳細が PC Watch の下記の記事にあります。そこに載っているスライドを引用します。

pc.watch.impress.co.jp

Gaudi 3

2023年5月には tape out

vengineer.hatenablog.com

Gaudi 3 の詳細

www.intel.com

Gaudi 3 の White PaperGaudi 2 の White Paper

White Paperによると、

  • 48 x 112Gbs PAM4 SerDes

双方向で 1200GB/s ですね。NVIDIA H100 の NVLINK v4 (100Gbps PAM4 x 2) x 18 の 双方向で 900GB/s を超えていますね。

White Paperより引用します。

  • L2のメモリ帯域は、19.2 TB/s
  • L3のメモリ帯域は、6.4TB/s

The Intel® Gaudi® 3 accelerator memory subsystem is equipped with L2 and L3 caches, which are coupled to each DCORE and HBM memory channels respectively.

HBM2e のチャネル (128bit x 8 channels)

下記に、Gaudi 2 (左)、Gaudi 3 (右) に並べてみました。基本的には同じですね。

  • Gaudi : 16nm / TPC x 8 / MME x 1 / HBM2 32GB/1TB/s, SRAM 24MB, Ethernet 10 x 100Gb, TDP 350W
  • Gaudi 2 : 7nm / TPC x 24 / MME x 2 / HBM2e 96(16)GB/2.45TB/s, SRAM 48MB, Ethernet 24 x 100Gb, TDP 600W
  • Gaudi 3 : 5nm / TPC x 32 x 2 / MME x 4 x 2 / HBM2e 128(16x8)GB/3.7TB/s, SRAM 48MB x 2, Ethernet 24 x 200Gb, TDP 900W(OAM)/600W(PCIe)

Gaudi => Gaudie 2 : TPC が 3倍、MME が 2倍、メモリ容量が3倍、メモリ帯域が 2.45倍、Ethernetが 2.4 倍と。ざっくり 2 - 2.4 倍ぐらい性能が上がるっぽい Gaudi 2 => Gaudi 3 : TPC が 2.66倍、MME が 4倍、メモリ容量が 1.3倍、メモリ帯域が 1.5倍、Ethernetが 2 倍、こちらはかなりバラけていますね。

Gaudi 2 => Gaudi 3 になって、MME が 4倍になったけど、メモリ帯域は 1.5倍、Ethernet が 2 倍。。。これって、まだまだ計算機の方が足らなかったのでしょうかね。。。

Node

Node数は、

  • 1, 64, 512, 1024 まではサポートできるようですね。1024ノードだと、8192 x Gaudi 3 なので、Google TPU v5p ぐらいのクラスタは構築できるのですね。

Node内の構成。各Gaudi 3 からは3組のEthernet(200Gb) が出ていて、Nodeからは 800GbE x 6 にして出していますね。

24 - 3 = 21 を使って、各 Gaudi 3 間を接続しています。どのように接続しているのでしょうか? 1つの Gaudi 3 が他の7個の Gaudi 3 と接続するのなら、3 x 200GbE で接続することになりますね。。。これは Node 外への 3 x 200GbE と同じですね。

Gaudi 2 の時は、24 x 100GbE だったので、3 x 100GbE であり、Gaudi の 時は、12 x 100GbE なので、Node内の各Gaudi は 1 x 100GbE で、Node 間では、各Gaudi から 3 x 100GbE が出ていました。

NVIDIA H100 との比較

Training

  • LIama2 7B : 1.5x
  • LIama2 13B : 1.7x
  • GPT3-175B : 1.4x

ということです。でも、H100 は メモリ容量が 80GB でメモリ帯域は 3TB/s。Gaudi 3は メモリ容量が128GB、メモリ帯域は 3.7TB/s。メモリ帯域が 1.23倍なのでこの部分を考慮しないと。

となると、

  • LIama2 7B : 1.5x / 1.23 = 1.22x
  • LIama2 13B : 1.7x = 1.38x
  • GPT3-175B : 1.4x = 1.14x

です。

Inferenceでは、H200と比較しています。LIama とありますが、NVIDIA H200では LIama2 なので間違えだとおもいます。

  • Llama2-7B : 0.8 - 1.0
  • LIama2-70B : 0.8 - 1.1
  • Falcon 180B : 1.1 - 3.8

LIama2 では、NVIDIA H200よりはちょっと遅いぐらいですね。H200のメモリ帯域は4.8TB/sなのでその分速い感じですね。Gaudi 3 も HBM2e ではなく、HBM3や HBM3e にすれば H200 を超えると思います。

おわりに

Intel Vision 2024」に、Naveen Rao さんがいらっしゃいました。

Intel CEOの Pat さんとツーショット

Rao さん、Intelが買収した Nervana Systems の CEO さんです。。。

HBM3 ではなく、HBM2eな理由

"Our methodology was to use only IPs that were already proven in silicon before we tape out. At the time we taped out Gaudi3 there was simply no available physical layers that were validated to meet our standards," COO Eitan Medina told The Register

Meta MTIA v2 は、TSMC 5nmで、MTIA v1 の強化版、次は、2 die + HBM へ

はじめに

Meta が MTIA v2 をアナウンスしました。

ai.meta.com

MTIA v1 はこちら

ai.meta.com

Meta MTIA v2

下記の die shot は上記の Meta のサイトから説明のために引用します。

下記は、ブロック図です。同様に説明のために引用します。

カッコの中は、MTIA v1 です。

  • TSMC 5nm (7nm)
  • frequency : 1.35GHz (800MHz)
  • die size : 25.6 x 16.4, 421mm2 (19.34 x 19.1, 373mm2)
  • package : 43mm x 43mm (50mm x 40mm)
  • Voltaga : 0.85V (0.67 V logic, 0.75 V memory)
  • TDP : 90W (25W)
  • PCIe : x8 Gen4 (x8 Gen5)
  • GEMM TOPS : 354 TFLOPS (INT8), 177 TFLOPS (FP16/BF16) (3.2 TFLOPS(INT8), 16 TFLOPS(FP16BF16)
  • SRAM : 256MB (128MB)
  • SRAM BW : 2.7 TB/s (800 GB/s)
  • DRAM : LPDDR5 128GB (LPDDR5 64GB)
  • DRAM BW : 204.8 GB/s (176 GB/s)

Board

下記はBoardです。同様に説明のために引用します。TDP が 90W なので、M.2 みたいな形状には入らないので、PCIe の長いボードになっていますね。たぶん、12枚入っていると思います。

Boardには、2個の MTIA v2 が載るのですね。でも、LPDDR5は、各辺1個の4個しかないのですが。となると、128GB/4 = 32GB になりますね。裏にも4個のっていると、16GBなので物はありますが。。。

Broadcom の資料のものと比較する

vengineer.hatenablog.com

に書いたBroadcomの資料に載っていたものと並べてみました。

同じですね。

おわりに

ということで、MTIA v2 が発表されました。

次は、2 die の下記のものですね。。。Broadcomの資料から説明のために引用します。

関連記事

www.nextplatform.com

上記の semianalysis に

There is also up to 128GB of LPDDR5-5500 on a 256-bit bus running at 176GB/s.

とあります。

176GB x 8 / 256 = 5.5Gbps

となると、16bit x 16 個。64bitのLPDDR5 なのかな? 64GB / 4 = 16GB, 128GB / 4 = 32GB

TSMCの2023年のトップカスタマー

はじめに

2022年のTSMCのトップカスタマー(7社)については、昨年の6月にこのブログにアップしました。

vengineer.hatenablog.com

2023年の情報がXの投稿に流れてきたので、記録します。

2023年は、NVIDIAが5位から2位に

一位は、Appleのままですが、NVIDIAが5位から2位になりました。

Apple が 25%

あれ、Appleの売上ってあんまりよくないんだけどと思い、TSMCの 2022と2023の売上を調べなおしました。

ここの11頁。

売上減でした。$75.88 B => $69.30 B

売上を計算してみました。

上位7社は、少なくても、$2.7B (Intel)です。2位のNVIDIAで $7.6B、Apple は $17.3B です。

おわりに

NVIDIAの売上は、$60.9 Bです。$7,6 Bって、12.4 % です。

TSMCの売上の内 11 % が NVIDIANVIDIA の売上の 12.4 % を TSMC に。。。なんか凄いですね。

追記)、2024.04.26

[2023年のAnnual Report の 57頁目](https://investor.tsmc.com/sites/ir/annual-report/2023/2023%20Annual%20Report%20E.pdf#page=57)にありました。

Versal AI Edge Series Gen 2 は、最大 Arm Cortex-A78が8個、R52が10個も入っている。最小規模では、A78 x 4 + R52 x 4 !

はじめに

AMD(Xilinx)が Versal AI Edge Series Gen 2 を発表しました。

www.amd.com

Versal AI Edge Series Gen 2 なのは、AI Enginer が 第二世代になったからなのでしょうか?

Versal AI Edge Series Gen 2

下図は、サイトからのものです。説明のために引用します。

  • Arm Cortex-A78 x 8
  • Arm Cortex-R52 10

も入っています。Versal AI Edge では、下図のようになっています。説明のために引用します。

  • Cortex A72 x 2
  • Cortex R5F x 2

なので、爆増ですね。

並べてみました。

こうしてみると、Gen 2 は、リッチな組み込みSoC ですね。

CPUコアは、

  • 2VE3304 : 4 / 4
  • 2VE3358 : 8 / 10
  • 2VE3504 : 4 / 4
  • 2VE3558 : 8 / 10
  • 2VE3804 : 4 / 4
  • 2VE3858 : 8 / 10

AIE-ML v2

New AIE-ML v2 tiles designed to deliver 2X compute/tile compared to previous generation, robust energy efficiency, and new native data types—including MX6 & MX9 designed to boost throughput & performance/watt.

とあります。

  • 性能は、2倍/tile
  • MX6/MX9 をサポート

AI性能 (2VE3304) : 24個

  • INT8 TOP (Dense) : 31
  • INT TOPS (Max Sparsity) : 31
  • MX6 TOPS (Dense) : 61

おわりに

どうやら、3種類の die がありそうですね。

  • 2VE3304/2VE3358 : AI-ML v2 (24)/ PL (206,920)
  • 2VE3504/2VE3558 : AI-ML v2 (80)/ PL (492,188)
  • 2VE3804/2VE3859 : AI-ML v2 (144) / PL (543,104)

一番小さいのが 2VE3304 で、

  • Cortex-A78 x 4 + Cortex-R52 x 4
  • AI-ML v2 (24) : 31 TOPS
  • PL (206,920)

ですね。

Cortex-A78 x 4 だと、Rapberry Pi 5 の Cortex-A76 x 4 よりリッチですね。

残念ながら、2VE3304/2VE3358 では、MicrosoftWindows 12 をサポートできる AI 性能(40 TOPS) を超えていませんね。。。

2VE3504 なら、80 TOPS ですが、これで Windows 12 PC を作ったら、お幾らになるんでしょうかね。

中国 Intellifusion のAIチップは、RISC-Vベース

はじめに

ちょっと前に、中国 Intellifusion のAIチップが $140で安いぞー、というのが話題になりました。tom's HARDWARE でも下記のように取り上げています。

www.tomshardware.com

下図は、上記の記事か説明のために引用します。

  • 2024年H1 : DeepEdge10Max : 48TOPS@int8
  • 2024年H2 : DeepEdge10Pro : 24TOPS@int8
  • 2025年H1 : DeepEdge10Ultra : 96TOPS@int8

名前の付け方、Pro / Max / Ultra 、なんか、Apple みたいですね。

今日は、中国 Intellifusion のAIチップ についてみてみます。

中国 Intellifusion のAIチップ

www.intellif.com

にありました。

  • DeepEdge10C
  • DeepEdge10
  • DeepEdge10Max

どうやら、ベースは Yuntian Lifei 第4世代 NNP400T のようですね。

DeepEdge10が、12 TOPS です。

Pro が 24 TOPS、Max が 48 TOPS、Ultra が 96 TOPS と。となると、DeepEdge10 の 12 TOPS を 2倍、4倍、8倍 になっていますね。

DeepEdge10Maxの説明には、

とあります。D2D チップレット オンチップ相互接続テクノロジーを採用。。。なるほど、DeepEdge10の die を4つ接続しているのか? または、DeepEdge10Pro の die を 2個搭載しているのか?

上記に、DeepMax10Max が 2024年H1、DeepMax10Pro が 2024年H2ということなので、1 die を後に出すことは無さそうなので、DeepEdge10 の die ベースっぽいですね。

DeepEdge10とは、

下記のXの投稿に色々ありました。説明のために引用します。

Each die has 10 RISC-V CPU core at 1.8GHz
+Arm Mali-G52 GPU
+Its own NPU NNP400T w/ 12Tops

4 Die connected D2D w/ hi-speed/wideband interfonncect -> 48TOPS/chiplet

14nm っぽい。

あれ、SoCなんだ。。。NNP400T は 12 TOPS、そして、4 Die が D2Dで接続とありますね。

  • 2024年H1 : DeepEdge10Max : 48TOPS@int8 => 4 die
  • 2024年H2 : DeepEdge10Pro : 24TOPS@int8 => 2 die
  • 2025年H1 : DeepEdge10Ultra : 96TOPS@int8 => 8 die ?

下図を説明のために引用します。D2Dとしては、2本出ているので、4 die まで接続できるのね。。。C2C を使って、4 die 以上の接続になるんでしょうね。

おわりに

最後の画像、説明のために引用します。

によると、

  • IPU X2000
  • IPU X5000
  • IPU X6000

なるプロダクトもあるのね。。。

Groqの設置台数!42,000、今年(2024年)に、220,000に!

はじめに

今日のブログは、Groq についてです。

下記の eetimes の記事からです。

www.eetimes.com

かなりスゴイ

既に、Groq カスタマとしては、

  • 70,000 開発者登録
  • 19,000 アプリケーション

そして、LPUに関しては、

  • 42,000 台設置
  • 今年は、220,000 台設置

14nmの725mm2サイズのものが 220,000 台って、NVIDI P100 の TSMC 16nm で 610 mm2NVIDIA V100、TSMC 12nm で 815mm2 と比較してもかなりスゴイと思います。

おわりに

現在、4nm で開発中。。。ですが、

We have the ability to do 1.5 million by next year [including the 220,000 this year]

とあります。

1.5 M台。。。。凄いです。