はじめに
3月28日に、NVIDIA DGX H100について、深堀しました。
この中で、CX7 が CPU と H100 の間でどのように接続しているかは、はっきりわかりませんでした。
CX7
下記の CX7 のデータシートには、
- 32 lanes of PCIe Gen 5.0, compatible with PCIe Gen 2/3/4
- Integrated PCI switch
とあります。しかしながら、下図の CX7 (ConnextX-7) では、CPUとは、Gen-4と繋がっていて、GPUと他の何かとは、Gen-4 より太い線でつながっているので、どうなっているのか?と思っていました。
DGX H100 での CX7
4月26日の「GTC 2022 テクニカルフォローアップセミナー 〜新アーキテクチャ & HPC〜」
の、成瀬さんの発表資料「 Hopper アーキテクチャで、変わること、変わらないこと」の眺めていたら、DGX H100での CX7 の接続部が載っていました。
下図は、DGX A100 (46頁)、DGX H100 (47頁)のブロック図です。説明のために引用します。
DGX A100 では、CPUから PCIe SW 経由で 2個のCX6 と 2個のA100がつながっています。
DGX H100 では、CPUから 直接 CX7 につながり、その先にH100がつながっています。これにより、4つの PCIe Switch が必要なくなり、コストダウンできます。
CPU から先のデバイスは、すべて、NVIDIA製になっています。CX7, H100, NV Switch。CPUにGraceを使えば、全部、NVIDIA製になります。
なので、CX7 が4つ載っているボードの上に、放熱フィンが付いているんですね。。。
下図は、33:32のキャプチャーです。
下図は、33:34のキャプチャーです。
おわりに
NVIDIA DGX H100 では、CX7を使うことで、PCIe Switch が必要なくなったことがわかりました。
P.S
上記の図のオレンジの部分は、NV Switch 上の水冷用の部品です。左側にある口に接続して、8個のGPUも水冷になっているようです。
関連記事