Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA B100を妄想する(その4)、振り返り

はじめに

NVIDIA B100の発表を受けて、妄想するを振り返ります。

N3Eではなかった

B100は、ずーと、N3Eだと思っていました。実際は、N4P。

よくよく考えてみたら、HGX を開発したら、それをサーバー機メーカーに納めて、サーバー機メーカーで開発できるようにしないといけないので、かなり前にアルファーバージョンがないといけない。 となると、既にあるプロセスを使わないと間に合わない。これは、IntelAMDも同じです。Appleのように自社内で完結するプロダクトでは無いことを。。。あー。

HBM3e の位置

下図はNVIDIAのB100の発表スライドを引用します。

B100のHBM3eがあるのは、短い方。H100は長い方。これを勘違いしていた。B100は 800mm2 x 2 ではないのでは?と思っていましたが、やっぱり、800mm2 x 2 は正しそう。

B100の計算能力

NVIDIA B100 を妄想する (その1)では、

GH100のSMは144で、CB100は160ということで、2 die にしたと考えると、真ん中から分けて、NVLINK-C2C で接続すればいいのでは?と思っています。 で、SM が 144 から 160 にしても、1.11倍しか性能があがりません。HBMは 6個から8個になり、1.33倍です。となると、1.33/1.11=1.198倍、動作周波数をあげられそうです。H100のPCIe版はBoost で 1.755GHzで動くので、1.198倍だと 2.1GHz ぐらいになりそうです。SMX5版ではもうちょっと速いと思いますが。 die を 2つに分けたことで、1つのSMに割り当てられる面積を増やせるので、Tensor Coreの数を増やすか、構造を変えて、2倍にすることができれば、> GB100は、GH100 に対して、1.11 x 1.198 x 2 = 2.65 倍ぐらいの性能にはなりそう

  • SMの数が160 : あってた
  • Tensor Coreが2倍 : あってた
  • NVLINK-C2C ではなく、HBI で 10TB/s : これは大外れ

  • B200 は、H100に対して、2.5倍。だいたい合ってそう。

これはほぼあっていました。

B100/B200 は消費電力(計算能力)

H100 => H200 が HBM3のメモリ容量とメモリ帯域の違いだけだったが、B100/B200 は dieは同じであるが、消費電力(計算能力)の違いだった。

HGX H100をHGX B100で置換できるようにする。B200は DGX B200と DGX GB200 NVL72で使う。

とりあえず、Good Dieを作って、B200とB100に分ける。。そして、そこからこぼれたものは、。。。。として売る。

HGX B100/B200 では、外部にNVLINKが出ない

DGX B200のDatasheetによると、

  • NVLINK SWITCH は、2個

下記の図は、NVIDIAのB200のサイトから引用しています。DGX A100の時は rear side に NVLINK SWITCH を6個、DGX H100の時は rear side に NVILINK SWITCH を4個載せていましたが、DGX B100ではGPUGPUの間の真ん中にNVLINK SWITCHを2個。rear side ではないので、外にはコネクタを載せていない。外にコネクタが必要無いので、4個ではなく、2個でOK.

下記の図は、HGXのサイトにありましたものを引用します。

NVLINK v5 と GB200

NVLINK v5 は、1.8TB/s(双方向)。何ポート出ているかは、DGX B200に載っている NVLINK SWITCHの数、2 x 72 ポート(NVLINK SWITCH v4は72ポート) = 144 ポート。これを8チップで割ると、18ポート。 18ポートは、H100と同じ。

GB200は、GraceとBlackwellを2個接続していて、ここの部分は NVLINK C2C で 900GB/s (双方向)で接続している。となると、Grace-Maxwellは、9ポートのNVLINK v4で接続。

下記のGB200のBringup Board(NVIDIA GTC2024の基調講演のビデオから)を見ると、2つのBlackwell の短辺とGraceが接続する。

下図はNVIDIAのB100の発表スライドを拡大して振り返ってみる。左上に9個のポートらしいものがある。これと、GraceのNVLINK-C2Cの9ポートと接続する。

NVLINK-C2Cが2ポートであることは、調査でわかってたんですがね。

vengineer.hatenablog.com

NVIDIA B100 を妄想する (その2) では、Graceと1個のB100を接続することにこだわっていました。2個のB100に接続すると考えれば、CB200を容易に妄想できたと思います。

GraceのNVLINK-C2Cが2ポートにしたのは、Blackwellも考えていたからでしょうね。。。

DGX B200

NVIDIA B100 を妄想する (その3)のように、x86-64のホストはPCIe Gen5 のままなので大きな変化はなし。上にも書きましたがNVLINK Switchが2個になり、rear side ではなく、GPUGPUの間になっただけ。

おわりに

B100の妄想を振り返りました。

あっていることも多かったですが、革ジャンCEOが基調講演で何度も言っていましたが、

「Blackwellは、チップではなく、システム」

というのは本当だと思います。

1つのdie blackwell から

  • B100
  • B200

を作り、その B100 と B200 から

  • GB200
  • HGX B100
  • HGX B200
  • DGX B200
  • DGX GB200 NVL72

と4つのプロダクトを作っているのですから、チップではなく、システムなんでしょうね。

そして、下記のXの投稿にあるように、Blackwellのコストは、$10B というのも、チップではなく、システムとして、$10B かかっているよ、ということなんでしょうね。