Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA H100のCX7には、PCIe gen5 bridge が入っていた

はじめに

3月28日に、NVIDIA DGX H100について、深堀しました。

vengineer.hatenablog.com

この中で、CX7 が CPU と H100 の間でどのように接続しているかは、はっきりわかりませんでした。

CX7

下記の CX7 のデータシートには、

nvdam.widen.net

  • 32 lanes of PCIe Gen 5.0, compatible with PCIe Gen 2/3/4
  • Integrated PCI switch

とあります。しかしながら、下図の CX7 (ConnextX-7) では、CPUとは、Gen-4と繋がっていて、GPUと他の何かとは、Gen-4 より太い線でつながっているので、どうなっているのか?と思っていました。

DGX H100 での CX7

4月26日の「GTC 2022 テクニカルフォローアップセミナー 〜新アーキテクチャ & HPC〜」

nvidia.connpass.com

の、成瀬さんの発表資料「 Hopper アーキテクチャで、変わること、変わらないこと」の眺めていたら、DGX H100での CX7 の接続部が載っていました。

下図は、DGX A100 (46頁)、DGX H100 (47頁)のブロック図です。説明のために引用します。

DGX A100 では、CPUから PCIe SW 経由で 2個のCX6 と 2個のA100がつながっています。

DGX H100 では、CPUから 直接 CX7 につながり、その先にH100がつながっています。これにより、4つの PCIe Switch が必要なくなり、コストダウンできます。

CPU から先のデバイスは、すべて、NVIDIA製になっています。CX7, H100, NV Switch。CPUにGraceを使えば、全部、NVIDIA製になります。

なので、CX7 が4つ載っているボードの上に、放熱フィンが付いているんですね。。。

下図は、33:32のキャプチャーです。

下図は、33:34のキャプチャーです。

おわりに

NVIDIA DGX H100 では、CX7を使うことで、PCIe Switch が必要なくなったことがわかりました。

P.S

上記の図のオレンジの部分は、NV Switch 上の水冷用の部品です。左側にある口に接続して、8個のGPUも水冷になっているようです。

関連記事

www.servethehome.com