Vengineerの妄想

人生を妄想しています。

NVIDIA DGX H100を深堀する

はじめに

GTC22のKeynoteから DGX H100 を深堀していきます。

NVSwitch は水冷?

下図は、33:31のキャプチャーです。奥が背面です。手前がホスト側と接続する PCIe 関連のコネクタです。真ん中にあるのは、NVSwitch の PCIe port に接続するための PCIe Switch だと思います。 オレンジ部分の下に NVSwitchがあります。DGX A100 の時は、放熱フィンだけでしたが、H100では放熱フィンに加えて、水冷用の機構が追加されています。

下図は、35:40のキャプチャーです。GPU側の上に冷却用のケーブルが接続されています。

追記)、2022.04.22

developer.nvidia.com

によると、

Multiple HGX H100 4-GPUs can be packed in a 1U high liquid cooling system to maximize GPU density per rack.

Connect-X 7 からケーブルが出ている

下図は、33:32のキャプチャーです。水色のケーブルが2本づつ、ヒートシンクに部分につながっています。 背面の4つに水色のケーブルがつながっています。

下図は、33:34のキャプチャーです。ヒートシンクの下の基板には、Connect-7 が 4個載っています。2個に対して、ケーブルを1本。背面で1本のケーブルが2個のコネクタにつながっているのでしょう!

下図は、35:40のキャプチャーです。ホスト側の真ん中に横一列に8個のコネクタが並んでいます。

43:32では、CX7に PCIe Gen5 switch が内蔵されているよ言っていますよ。なので、A100 (下図は、DGX A100 User Guideのページから引用) のように PCIe Switch が無いんですね。

  • 32 lanes of PCIe Gen 5.0
  • compatible with PCIe Gen 2/3/4 Integrated PCI switch
  • NVIDIA Multi-Host™and NVIDIA Socket Direct™

Switch は、Gen4までなのかな?

32 lanes は、ホスト側は 何? lanes、SSD は? Hopper は?

nvdam.widen.net

下図は、39:35のキャプチャーです。Connect-X 7 が GPU と 直接接続しています。ホスト側とは PCIe Gen4で接続しています。

おわりに

Keynote のビデオを何度も見て、ちょっと深堀しました。