はじめに

NVIDIA B100の発表を受けて、妄想するを振り返ります。

N3Eではなかった

B100は、ずーと、N3Eだと思っていました。実際は、N4P。

よくよく考えてみたら、HGX を開発したら、それをサーバー機メーカーに納めて、サーバー機メーカーで開発できるようにしないといけないので、かなり前にアルファーバージョンがないといけない。となると、既にあるプロセスを使わないと間に合わない。これは、IntelやAMDも同じです。Appleのように自社内で完結するプロダクトでは無いことを。。。あー。

HBM3e の位置

下図はNVIDIAのB100の発表スライドを引用します。

B100のHBM3eがあるのは、短い方。H100は長い方。これを勘違いしていた。B100は 800mm² x 2 ではないのでは？と思っていましたが、やっぱり、800mm² x 2 は正しそう。

B100の計算能力

NVIDIA B100 を妄想する (その1)では、

GH100のSMは144で、CB100は160ということで、2 die にしたと考えると、真ん中から分けて、NVLINK-C2C で接続すればいいのでは？と思っています。で、SM が 144 から 160 にしても、1.11倍しか性能があがりません。HBMは 6個から8個になり、1.33倍です。となると、1.33/1.11=1.198倍、動作周波数をあげられそうです。H100のPCIe版はBoost で 1.755GHzで動くので、1.198倍だと 2.1GHz ぐらいになりそうです。SMX5版ではもうちょっと速いと思いますが。 die を 2つに分けたことで、1つのSMに割り当てられる面積を増やせるので、Tensor Coreの数を増やすか、構造を変えて、2倍にすることができれば、> GB100は、GH100 に対して、1.11 x 1.198 x 2 = 2.65 倍ぐらいの性能にはなりそう

SMの数が160 : あってた
Tensor Coreが2倍 : あってた
NVLINK-C2C ではなく、HBI で 10TB/s : これは大外れ
B200 は、H100に対して、2.5倍。だいたい合ってそう。

これはほぼあっていました。

B100/B200 は消費電力(計算能力)

H100 => H200 が HBM3のメモリ容量とメモリ帯域の違いだけだったが、B100/B200 は dieは同じであるが、消費電力(計算能力)の違いだった。

HGX H100をHGX B100で置換できるようにする。B200は DGX B200と DGX GB200 NVL72で使う。

とりあえず、Good Dieを作って、B200とB100に分ける。。そして、そこからこぼれたものは、。。。。として売る。

HGX B100/B200 では、外部にNVLINKが出ない

DGX B200のDatasheetによると、

NVLINK SWITCH は、2個

下記の図は、NVIDIAのB200のサイトから引用しています。DGX A100の時は rear side に NVLINK SWITCH を6個、DGX H100の時は rear side に NVILINK SWITCH を4個載せていましたが、DGX B100ではGPUとGPUの間の真ん中にNVLINK SWITCHを2個。rear side ではないので、外にはコネクタを載せていない。外にコネクタが必要無いので、4個ではなく、2個でOK.