Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA Blackwellは、チップではなく、システム!

はじめに

NVIDIA GTC2024にて、Blackwell の発表がありました。

革ジャンCEO曰く 「Blackwellは、チップではなく、システム!」

注目すべき点は、Ampereの時はDGX A100、Hopperの時はDGX H100がメインの内容だったかが、Blackwellでは、DGX GB200 NVL72 がメイン

その点を中心に見ていきます

その前に、B100の妄想を振り返ります

SM160 はあってた

妄想の会、その1にSMを160/176/192で予想していました。下限の160で合っていました。

vengineer.hatenablog.com

B100、TSMC N3Eを想定していましたが、N4Pなのでそれほど入らないですね。。。

Grace + Blackwell x 2

下記は、Grace + Blackwell x 2のボードです。

Blackwell

  • 2 die
  • 208 B transistors : Hoppoer の 2.5x
  • TSMC 4NP
  • TF32/FP16/BF16/INT8/FP8 : Hopper の 2.5倍の性能
  • HBM Memory Size : 192GB (24GB x 8)
  • NVLINK : v5 (1.8TB/s : 双方向)
  • PCIe : Gen6

Blackwell の die shot は下記のXの投稿がキレイに映っているので、引用します。

DGX B200

NVIDIA のサイトには、DGX B200が載っています。NVLINK Switch は背面側ではなく、GPU間にありますね。となると、DGX B200からは NVLINK のポートは出ていない可能性は高いですね。

www.nvidia.com

  • GPU : B200 x 8
  • GPU Memory : 1440GB (192GB x 8)
  • Power Consumption : ~ 14.3 kW max
  • CPU : 2 x Intel Xeon Platinum 8570
  • System Memory : Up to 4TB
  • Networking : 4x QSFP ports serving 8x single-port NVIDIA ConnectX-7-VPI + 2x dual-port QSFP112 NVDIA BlieField-3 DPU
  • Rack Units (RU) : 10 RU

ホストは、Intel Xeon 8570 (Emerald Rapids) ですね。

サイズがH100と違いますね。

  • H100 : Height (356mm) x Width (482.2) x Length (897.1)
  • B200 : Height (444mm) x Width (482.2) x Length (897.1)

H100 が、8 RU に対して、B200 は 10 RU。

下記の図は、NVIDIAのB200のサイトから引用しています。

  • DGX B200 : FP8 72 PetaLOPS (9 x 8), FP16/BF16 : 4.5 petaFLOPS
  • DGX B100 : FP8 56 PetaLOPS (6 x 8), FP16/BF16 : 3.5 petaFLOPS

DGX GB200 NVL72

NVIDIAのDGX GB200 NVL72のサイトは、下記です。

www.nvidia.com

下図は、NVIDIAのサイトから引用しました。右側が裏側で NVLINKのケーブルがたくさんありますね。

DGX GB200 NVL72 の Grace-Blackwell のノード。下記はNVIDIAのサイトから引用しています。

  • Grace - Blackwell x 2 が2個
  • ConnectX-800g が4個

ConnectX-800は、PCIe Gen6 でないと性能でないと思っていましたが、PCIe Gen5 x16 を2組という使い方ができるので、Grace とは、PCIe Gen5 x 16 を2組で繋がっているのかな?と上の図を見て思いました。

developer.nvidia.com

下図は、NVIDIAのサイトから引用しました。8本のケーブルが背面から来ています。4本がNVLINK Switch Chipに接続しています。

DGX GB200 NVL72 には、9台のNVLINK Switch があるようで、NVLINK Switch Chip は2倍の18個です。各NVLINK Switch Chipは72ポートなので、72 x 18 = 1296 ポート

72個のGB200から18ポートを繋いでいる感じです。H100のNVLINKは18 x 25GB/sでしたが、B100のNVLINKは2倍になっているので、18 x 50GB/s (100Gbps-PAM4 x 2 = 400Gbps) になっているのでしょう!

おわりに

H100に対して、B100の性能は、2.5倍です。 die 単位だと、1.25倍です。

SMの数をH100(GH100)の144から160にして、25%アップです。TensorCoreの性能を2倍にすれば、1.25 x 2 = 2.5です。

つまり、動作周波数を上げなくても 2.5倍が実現できたわけです。

1die では、SMは144 => 80 に減りましたが、TensorCoreが2倍になっているので、まー、それなりにシリコンが大きくなったわけですね。

関連記事

wccftech.com

www.anandtech.com