はじめに
GTC22のKeynoteから DGX H100 を深堀していきます。
NVSwitch は水冷?
下図は、33:31のキャプチャーです。奥が背面です。手前がホスト側と接続する PCIe 関連のコネクタです。真ん中にあるのは、NVSwitch の PCIe port に接続するための PCIe Switch だと思います。 オレンジ部分の下に NVSwitchがあります。DGX A100 の時は、放熱フィンだけでしたが、H100では放熱フィンに加えて、水冷用の機構が追加されています。
下図は、35:40のキャプチャーです。GPU側の上に冷却用のケーブルが接続されています。
追記)、2022.04.22
によると、
Multiple HGX H100 4-GPUs can be packed in a 1U high liquid cooling system to maximize GPU density per rack.
Connect-X 7 からケーブルが出ている
下図は、33:32のキャプチャーです。水色のケーブルが2本づつ、ヒートシンクに部分につながっています。 背面の4つに水色のケーブルがつながっています。
下図は、33:34のキャプチャーです。ヒートシンクの下の基板には、Connect-7 が 4個載っています。2個に対して、ケーブルを1本。背面で1本のケーブルが2個のコネクタにつながっているのでしょう!
下図は、35:40のキャプチャーです。ホスト側の真ん中に横一列に8個のコネクタが並んでいます。
43:32では、CX7に PCIe Gen5 switch が内蔵されているよ言っていますよ。なので、A100 (下図は、DGX A100 User Guideのページから引用) のように PCIe Switch が無いんですね。
- 32 lanes of PCIe Gen 5.0
- compatible with PCIe Gen 2/3/4 Integrated PCI switch
- NVIDIA Multi-Host™and NVIDIA Socket Direct™
Switch は、Gen4までなのかな?
32 lanes は、ホスト側は 何? lanes、SSD は? Hopper は?
下図は、39:35のキャプチャーです。Connect-X 7 が GPU と 直接接続しています。ホスト側とは PCIe Gen4で接続しています。
おわりに
Keynote のビデオを何度も見て、ちょっと深堀しました。