Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVDIA NVLink って、256デバイスまでなんでね。

はじめに

調べ物をしていたら、NVLink で接続できるデバイス数が 256 というのを知りました。

NVSwitch を使用すると、NVLink 接続をノード間で拡張し、シームレスで高帯域幅のマルチノード GPU クラスターを構築できます。データ センターサイズの GPU が効果的に形成されます。NVSwitch の第 2 層を外部サーバーに追加することで、NVLink ネットワークでは、最大 256 個の GPU を接続し、毎秒 57.6 テラバイトもの All-to-All 帯域幅を提供できます。非常に大きな AI ジョブでも短時間で解決できます。

NVIDIA DGX SuperPOD

ここに DGX H100 ベースの SuperPOD が載っています。下図を説明のために引用します。

DGX H100が32台搭載されています。DGX H100 には H100 が8個搭載されているので、32台 x 8個 = 256個となり、NVLink の最大値256にとなります。

となると、256個以上のシステムだと、その間は NVLink ではないもので接続するんでしょうね。。。

NVIDIA GPU ベースの Supercomputer

blogs.nvidia.com

によると、DGX SATURNV という Supercomputer は、

  • 140 DGX A100 systems
  • 1,120 NVIDIA A100 GPUs
  • 170 Mellanox Quantum 200G InfiniBand switches
  • 15km of optical cable
  • 4PB of high-performance storage

のように、Mellanox Quantum 200G InfiniBand switches で接続しているようです。

Selene は、下記の記事から

  • DGX A100サーバー280基で構成され、システム間をつなげる494個のMellanox HDR 200G InfiniBandスイッチを実装

とあり、こちらも Mellanox HDR 200G InfiniBand switches で接続しています。

pc.watch.impress.co.jp

おわりに

NVLink を使えば、最強だと思っていましたが、256個 (DGX A100/H100、32台)までしかつながらなかったんですね。