Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA DGX Station

はじめに

NVIDIA の DGX Station 、A100を使ったのは、DGX station A100。データシートは、こちら

説明のために、システム仕様のところを画像として引用します。

f:id:Vengineer:20220330124143p:plain

消費電力は、1.5kW 。A100 SMX だと、400Wです。4個で1600Wなり、1.5kW 超えます。CPU(AMD EPYC) もあるので、それなりに制御しているのでしょうか?

2.5petaFLOPS AIとあります。A100のFP16の624 TFLOPSなので、x4 = 2.496petaFLOPS になりますね。

DGX Station A100 の中身

NVIDIA DGX Station A100 System Architectureから下図を説明のために引用します。DGX Station、1台で利用するので、ネットワークは10GBでいいんですね。ストレージは、2組出ていて、System用に1台、インターナル用に4台、入っているようです。

f:id:Vengineer:20220330124620p:plain

CPUがAMD EPYC 7742 (ROME)なので、PCIe Gen4 が 128 lanes 出ていますね。。GPUとは、16 x 4 = 64 lanes 、SSDに 4 x 5 = 20 lanes、ディスプレイカードに、x16 lanes、合計で 100 lanes 、128 lanesで間に合いますね。

Grace + Hopper ベースの DGX Station

Grace + Hopper が A100ベースシステムの10倍の性能ということなので、DGX Station の A100 x 4 に対して、Grace +Hopper Superchipの方が 2.5倍性能がいいということになりますよね。

下図、(NVIDIAがGraceとHopperという名のスーパーチップとEOSスパコンを発表](https://news.mynavi.jp/techplus/article/20220325-2303875/)、から説明のために引用します。

f:id:Vengineer:20220330125535p:plain

H100のSMX5版は700Wなので、A100のSMX版の400W x 4 を積めないので、H100(SMX5) x 2 になると思います。そうなると、上記の図の真ん中の2つ。

  • Grace + 2 x Hopper
  • Grace x 2 + Hopper x 2

Grace + 2 x Hopper は、基板にコネクタとかいっぱい既についているので、これは何かの特定用途用なのかと、そうなると、Grace x 2 + Hopper x 2の構成になるんだろうか?

おわりに

DGX V100 (8 x V100)は、2017年春、DGX Station V100 (PCIe版V100 x 4)は、2017年冬(12月)の発表。 DGX A100 (8 x A100)は、2020年春(5月)の発表。DGX Station A100 (SMX4版A100 x 4)は、2020年秋(11月)の発表。 DGX H100 (8 x H100)は、2022年春(3月)の発表なので、DGX Station H100は、2022年秋(10月か11月)の発表。Hopperを何個積むかがポイントですね。

Hopper に関しては、下記のA100と同様に下記のようなコンフィグレーションが可能なのかと。A100との違いは、DGX Stationの構成ですかね。

  • PCIe Card
  • DGX Station ( 2 x Hopper)
  • HGX H100 (4 x Hopper)
  • HGX H100 (8 x Hopper)
  • DGX H100