はじめに
NVIDIA B100の発表を受けて、妄想するを振り返ります。
N3Eではなかった
B100は、ずーと、N3Eだと思っていました。実際は、N4P。
よくよく考えてみたら、HGX を開発したら、それをサーバー機メーカーに納めて、サーバー機メーカーで開発できるようにしないといけないので、かなり前にアルファーバージョンがないといけない。 となると、既にあるプロセスを使わないと間に合わない。これは、IntelやAMDも同じです。Appleのように自社内で完結するプロダクトでは無いことを。。。あー。
HBM3e の位置
下図はNVIDIAのB100の発表スライドを引用します。
B100のHBM3eがあるのは、短い方。H100は長い方。これを勘違いしていた。B100は 800mm2 x 2 ではないのでは?と思っていましたが、やっぱり、800mm2 x 2 は正しそう。
B100の計算能力
GH100のSMは144で、CB100は160ということで、2 die にしたと考えると、真ん中から分けて、NVLINK-C2C で接続すればいいのでは?と思っています。 で、SM が 144 から 160 にしても、1.11倍しか性能があがりません。HBMは 6個から8個になり、1.33倍です。となると、1.33/1.11=1.198倍、動作周波数をあげられそうです。H100のPCIe版はBoost で 1.755GHzで動くので、1.198倍だと 2.1GHz ぐらいになりそうです。SMX5版ではもうちょっと速いと思いますが。 die を 2つに分けたことで、1つのSMに割り当てられる面積を増やせるので、Tensor Coreの数を増やすか、構造を変えて、2倍にすることができれば、> GB100は、GH100 に対して、1.11 x 1.198 x 2 = 2.65 倍ぐらいの性能にはなりそう
- SMの数が160 : あってた
- Tensor Coreが2倍 : あってた
NVLINK-C2C ではなく、HBI で 10TB/s : これは大外れ
B200 は、H100に対して、2.5倍。だいたい合ってそう。
これはほぼあっていました。
B100/B200 は消費電力(計算能力)
H100 => H200 が HBM3のメモリ容量とメモリ帯域の違いだけだったが、B100/B200 は dieは同じであるが、消費電力(計算能力)の違いだった。
HGX H100をHGX B100で置換できるようにする。B200は DGX B200と DGX GB200 NVL72で使う。
とりあえず、Good Dieを作って、B200とB100に分ける。。そして、そこからこぼれたものは、。。。。として売る。
HGX B100/B200 では、外部にNVLINKが出ない
DGX B200のDatasheetによると、
- NVLINK SWITCH は、2個
下記の図は、NVIDIAのB200のサイトから引用しています。DGX A100の時は rear side に NVLINK SWITCH を6個、DGX H100の時は rear side に NVILINK SWITCH を4個載せていましたが、DGX B100ではGPUとGPUの間の真ん中にNVLINK SWITCHを2個。rear side ではないので、外にはコネクタを載せていない。外にコネクタが必要無いので、4個ではなく、2個でOK.
下記の図は、HGXのサイトにありましたものを引用します。
NVLINK v5 と GB200
NVLINK v5 は、1.8TB/s(双方向)。何ポート出ているかは、DGX B200に載っている NVLINK SWITCHの数、2 x 72 ポート(NVLINK SWITCH v4は72ポート) = 144 ポート。これを8チップで割ると、18ポート。 18ポートは、H100と同じ。
GB200は、GraceとBlackwellを2個接続していて、ここの部分は NVLINK C2C で 900GB/s (双方向)で接続している。となると、Grace-Maxwellは、9ポートのNVLINK v4で接続。
下記のGB200のBringup Board(NVIDIA GTC2024の基調講演のビデオから)を見ると、2つのBlackwell の短辺とGraceが接続する。
下図はNVIDIAのB100の発表スライドを拡大して振り返ってみる。左上に9個のポートらしいものがある。これと、GraceのNVLINK-C2Cの9ポートと接続する。
NVLINK-C2Cが2ポートであることは、調査でわかってたんですがね。
NVIDIA B100 を妄想する (その2) では、Graceと1個のB100を接続することにこだわっていました。2個のB100に接続すると考えれば、CB200を容易に妄想できたと思います。
GraceのNVLINK-C2Cが2ポートにしたのは、Blackwellも考えていたからでしょうね。。。
DGX B200
NVIDIA B100 を妄想する (その3)のように、x86-64のホストはPCIe Gen5 のままなので大きな変化はなし。上にも書きましたがNVLINK Switchが2個になり、rear side ではなく、GPUとGPUの間になっただけ。
おわりに
B100の妄想を振り返りました。
あっていることも多かったですが、革ジャンCEOが基調講演で何度も言っていましたが、
「Blackwellは、チップではなく、システム」
というのは本当だと思います。
1つのdie blackwell から
- B100
- B200
を作り、その B100 と B200 から
- GB200
- HGX B100
- HGX B200
- DGX B200
- DGX GB200 NVL72
と4つのプロダクトを作っているのですから、チップではなく、システムなんでしょうね。
そして、下記のXの投稿にあるように、Blackwellのコストは、$10B というのも、チップではなく、システムとして、$10B かかっているよ、ということなんでしょうね。
Blackwell cost $10 billion to develop. Good luck to the AI chip startups! https://t.co/IHcIL5vL1t
— tae kim (@firstadopter) 2024年3月19日