Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA DGX H100のホストは、Intel Sapphire Rapids であることを正式発表

はじめに

NVIDIAのDGX H100の発表があった時に、ホストは dual x86 になっていました。Datasheetも同じです(今もそのまま)

ホスト側の正式発表が無いのに明示することができないのでそうなっていたんでしょうね。。。

DGX H100の資料では、メモリが8枚 x 2組になっているので、AMD の Genova ではないことが確定しているので結局は Intel Sapphire Rapidsということは既知だったんでしょうけど。

DGX を振り返る

  • DGX-1 (P100/V100) : Intel Xeon E5-2698( Haswell) v4 x2 (20コア + 20コア)
  • DGX-2 (V100) : Intel Xeon Platium 8168 (Skylake) x 2 (24コア + 24コア)
  • DGX A100 : AMD ROME 7742 x 2 (64コア + 64コア)
  • DGX H100 : Intel Sapphire Rapids x 2 (56コア? + 56コア?)

DGX A100 だけ、AMDです。これは Intel が PCIe Gen4 対応できていなかったからじゃないですかね。

ちょっと気になっているのは、A100 に対して、H100 は6倍の性能なのに、CPUコア数はほとんど変わらないというところです。

たぶん、これに対してのソリューションが Grace-Hopper Superchip なんでしょうね。x86-64コアに比べると性能は落ちるかもしれないが、72コアのNeoverse-V2ならそれなりに頑張れると。。。

おわりに

DGX H100のメモリ容量は、A100 の 2Tと同じですね。1CPUで1TB。16枚のメモリなので、64GB x 16 = 1TB。128GBメモリで安定して動くようになるのはいつ頃なんでしょうか?

Samsung DDR5は、16Gb なので、2GB。64GBだと、32個。。。ECC を考えると36個ですよね。。。。これ以上無理ですよね。 Samsung DDR5では、32Gb を出すようなので、そうなると、128GB まではいけそうですね。。。。