はじめに
NVIDIA GTC2024にて、Blackwell の発表がありました。
革ジャンCEO曰く 「Blackwellは、チップではなく、システム!」
注目すべき点は、Ampereの時はDGX A100、Hopperの時はDGX H100がメインの内容だったかが、Blackwellでは、DGX GB200 NVL72 がメイン
その点を中心に見ていきます
その前に、B100の妄想を振り返ります
SM160 はあってた
妄想の会、その1にSMを160/176/192で予想していました。下限の160で合っていました。
B100、TSMC N3Eを想定していましたが、N4Pなのでそれほど入らないですね。。。
Grace + Blackwell x 2
下記は、Grace + Blackwell x 2のボードです。
Blackwell
- 2 die
- 208 B transistors : Hoppoer の 2.5x
- TSMC 4NP
- TF32/FP16/BF16/INT8/FP8 : Hopper の 2.5倍の性能
- HBM Memory Size : 192GB (24GB x 8)
- NVLINK : v5 (1.8TB/s : 双方向)
- PCIe : Gen6
Blackwell の die shot は下記のXの投稿がキレイに映っているので、引用します。
Welcome Blackwell! #GTC24
— Andreas Schilling 🇺🇦 🇮🇱 (@aschilling) 2024年3月18日
- TSMC 4NP
- 208 Billion Transistors
- 2x 800+ mm^2
- 10 TB/s NV-HBI
- 700 - 1,200 W TDP
- 192 GB HBM3E
- 8 TB/s Memory BWhttps://t.co/OFBEXQw68L pic.twitter.com/ASrjcpiLwq
DGX B200
NVIDIA のサイトには、DGX B200が載っています。NVLINK Switch は背面側ではなく、GPU間にありますね。となると、DGX B200からは NVLINK のポートは出ていない可能性は高いですね。
- GPU : B200 x 8
- GPU Memory : 1440GB (192GB x 8)
- Power Consumption : ~ 14.3 kW max
- CPU : 2 x Intel Xeon Platinum 8570
- System Memory : Up to 4TB
- Networking : 4x QSFP ports serving 8x single-port NVIDIA ConnectX-7-VPI + 2x dual-port QSFP112 NVDIA BlieField-3 DPU
- Rack Units (RU) : 10 RU
ホストは、Intel Xeon 8570 (Emerald Rapids) ですね。
サイズがH100と違いますね。
- H100 : Height (356mm) x Width (482.2) x Length (897.1)
- B200 : Height (444mm) x Width (482.2) x Length (897.1)
H100 が、8 RU に対して、B200 は 10 RU。
下記の図は、NVIDIAのB200のサイトから引用しています。
- DGX B200 : FP8 72 PetaLOPS (9 x 8), FP16/BF16 : 4.5 petaFLOPS
- DGX B100 : FP8 56 PetaLOPS (6 x 8), FP16/BF16 : 3.5 petaFLOPS
DGX GB200 NVL72
NVIDIAのDGX GB200 NVL72のサイトは、下記です。
下図は、NVIDIAのサイトから引用しました。右側が裏側で NVLINKのケーブルがたくさんありますね。
DGX GB200 NVL72 の Grace-Blackwell のノード。下記はNVIDIAのサイトから引用しています。
- Grace - Blackwell x 2 が2個
- ConnectX-800g が4個
ConnectX-800は、PCIe Gen6 でないと性能でないと思っていましたが、PCIe Gen5 x16 を2組という使い方ができるので、Grace とは、PCIe Gen5 x 16 を2組で繋がっているのかな?と上の図を見て思いました。
NVLINK Switch
下図は、NVIDIAのサイトから引用しました。8本のケーブルが背面から来ています。4本がNVLINK Switch Chipに接続しています。
DGX GB200 NVL72 には、9台のNVLINK Switch があるようで、NVLINK Switch Chip は2倍の18個です。各NVLINK Switch Chipは72ポートなので、72 x 18 = 1296 ポート
72個のGB200から18ポートを繋いでいる感じです。H100のNVLINKは18 x 25GB/sでしたが、B100のNVLINKは2倍になっているので、18 x 50GB/s (100Gbps-PAM4 x 2 = 400Gbps) になっているのでしょう!
おわりに
H100に対して、B100の性能は、2.5倍です。 die 単位だと、1.25倍です。
SMの数をH100(GH100)の144から160にして、25%アップです。TensorCoreの性能を2倍にすれば、1.25 x 2 = 2.5です。
つまり、動作周波数を上げなくても 2.5倍が実現できたわけです。
1die では、SMは144 => 80 に減りましたが、TensorCoreが2倍になっているので、まー、それなりにシリコンが大きくなったわけですね。
関連記事