Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう！

NVIDIA Blackwellは、チップではなく、システム！

はじめに

NVIDIA GTC2024にて、Blackwell の発表がありました。

革ジャンCEO曰く「Blackwellは、チップではなく、システム！」

注目すべき点は、Ampereの時はDGX A100、Hopperの時はDGX H100がメインの内容だったかが、Blackwellでは、DGX GB200 NVL72 がメイン

その点を中心に見ていきます

その前に、B100の妄想を振り返ります

SM160 はあってた

妄想の会、その1にSMを160/176/192で予想していました。下限の160で合っていました。

vengineer.hatenablog.com

B100、TSMC N3Eを想定していましたが、N4Pなのでそれほど入らないですね。。。

Grace + Blackwell x 2

下記は、Grace + Blackwell x 2のボードです。

Blackwell

2 die
208 B transistors : Hoppoer の 2.5x
TSMC 4NP
TF32/FP16/BF16/INT8/FP8 : Hopper の 2.5倍の性能
HBM Memory Size : 192GB (24GB x 8)
NVLINK : v5 (1.8TB/s : 双方向)
PCIe : Gen6

Blackwell の die shot は下記のXの投稿がキレイに映っているので、引用します。

Welcome Blackwell! #GTC24

- TSMC 4NP
- 208 Billion Transistors
- 2x 800+ mm^2
- 10 TB/s NV-HBI
- 700 - 1,200 W TDP
- 192 GB HBM3E
- 8 TB/s Memory BWhttps://t.co/OFBEXQw68L pic.twitter.com/ASrjcpiLwq
— Andreas Schilling 🇺🇦 🇮🇱 (@aschilling) 2024年3月18日

DGX B200

NVIDIA のサイトには、DGX B200が載っています。NVLINK Switch は背面側ではなく、GPU間にありますね。となると、DGX B200からは NVLINK のポートは出ていない可能性は高いですね。

GPU : B200 x 8
GPU Memory : 1440GB (192GB x 8)
Power Consumption : ～ 14.3 kW max
CPU : 2 x Intel Xeon Platinum 8570
System Memory : Up to 4TB
Networking : 4x QSFP ports serving 8x single-port NVIDIA ConnectX-7-VPI + 2x dual-port QSFP112 NVDIA BlieField-3 DPU
Rack Units (RU) : 10 RU

ホストは、Intel Xeon 8570 (Emerald Rapids) ですね。

サイズがH100と違いますね。

H100 : Height (356mm) x Width (482.2) x Length (897.1)
B200 : Height (444mm) x Width (482.2) x Length (897.1)

H100 が、8 RU に対して、B200 は 10 RU。

下記の図は、NVIDIAのB200のサイトから引用しています。

DGX B200 : FP8 72 PetaLOPS (9 x 8), FP16/BF16 : 4.5 petaFLOPS
DGX B100 : FP8 56 PetaLOPS (6 x 8), FP16/BF16 : 3.5 petaFLOPS

DGX GB200 NVL72

NVIDIAのDGX　GB200 NVL72のサイトは、下記です。

下図は、NVIDIAのサイトから引用しました。右側が裏側で NVLINKのケーブルがたくさんありますね。

DGX GB200 NVL72 の Grace-Blackwell のノード。下記はNVIDIAのサイトから引用しています。

Grace - Blackwell x 2 が2個
ConnectX-800g が4個

ConnectX-800は、PCIe Gen6 でないと性能でないと思っていましたが、PCIe Gen5 x16 を2組という使い方ができるので、Grace とは、PCIe Gen5 x 16 を2組で繋がっているのかな？と上の図を見て思いました。

NVLINK Switch

developer.nvidia.com

下図は、NVIDIAのサイトから引用しました。8本のケーブルが背面から来ています。4本がNVLINK Switch Chipに接続しています。

DGX GB200 NVL72 には、9台のNVLINK Switch があるようで、NVLINK Switch Chip は2倍の18個です。各NVLINK Switch Chipは72ポートなので、72 x 18 = 1296 ポート

72個のGB200から18ポートを繋いでいる感じです。H100のNVLINKは18 x 25GB/sでしたが、B100のNVLINKは2倍になっているので、18 x 50GB/s (100Gbps-PAM4 x 2 = 400Gbps) になっているのでしょう！

おわりに

H100に対して、B100の性能は、2.5倍です。 die 単位だと、1.25倍です。

SMの数をH100(GH100)の144から160にして、25％アップです。TensorCoreの性能を2倍にすれば、1.25 x 2 = 2.5です。

つまり、動作周波数を上げなくても 2.5倍が実現できたわけです。

1die では、SMは144 => 80 に減りましたが、TensorCoreが2倍になっているので、まー、それなりにシリコンが大きくなったわけですね。

関連記事

www.anandtech.com