Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA HGX H100内は、どうつながっているのかを妄想する

はじめに

NVIDIA HGX H100の中でH100はどのように繋がっているかを妄想しました。

HGX H100

下図は、Dell PowerEdge XE9680の Remove/Install H100 GPU の Youtube から説明のために引用します。

上にNVSwitch v3が4つあります。その下に、H100が8個あるのですが、その内1個(左上)のH100を外した時の映像(画像)です。よーくみると、コネクタが2つ見えます。上側は横長、下側が正方形っぽい形をしています。

下図は、左側が上記のHGX H100の画像で、右側がH100の背面の画像です (Checking out the NVIDIA H100 in Our First Look at Hopper の中の画像を説明のために引用します)

H100は片側に、PCIe と NVLink v4、もう片方がNVLink-C2Cになっています。SMX5版のH100の時はNVLINK-C2Cは使わないので、信号線をコネクタに出す必要はありません。なので、ピン数が1/3程度の正方形のコネクタになっています。

下図は、左側がH100(Hopper、GH100)のdie shot で右側がGraceのdie shotです。H100のdie shot は この記事から、Graceのdie shot はこの記事から説明のために引用します。

左側の下に NVLinkv4 x18、左側の上に PCIe Gen5 x16 + x4 x2 があります。右側がNVLINK-C2Cです。

下図は、NVIDIA Grace-Hopper Superchipの画像です。左側が表面(このツイート)、右側が裏面(このツイート)です。Hopper側のコネクタが H100のコネクタと同じ感じになっています。

再度、下記の画像を見てみます。H100のPCIe / NVLink v4側が NVSwitch v3側になっていることが分かりました。H100とNVLinkの配線長を短くするためなんでしょうね。HGX H100のPCIeコネクタからはPCIe Retimer経由で各H100のPCIe Gen5 x16に接続しているんでしょうね。

おわりに

色々な記事、写真、ビデオから総合的に判断して、上記のようにつながっているんだろうな?ということろまで妄想できました。

HGX A100 は、どうなっているのかな?と思い、このツイートから下図を説明のために引用します。

A100の場合は、H100とちょっと違って、PCIe Gen4 x 16 と NVLink v3 x 12 が違う側にあります。

下図をNVIDIA DGX A100 User Guideから説明のために引用します。この図のように、各A100は6個のNVSwitch v2と接続するので、HGX H100と同じように、NVLink側がNVSwitchに近い方を向いていて、PCIe側はホストPCに接続するコネクタ側になるんじゃないのでは?と思っています。