Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

Supercomputer Crusher の node内の転送帯域

はじめに

Twitterを眺めていたら、下記のTweetが流れてきました。

AMD MI250X を使った Supercomputer Crusher に関する論文のようです。

論文は、

です。

node構成

上記の論文には下図があります。説明のために引用します。CPUであるEPYC 7A53 を 4-NUMA で使っています。各 NUMA には1つのMI250X(2 die)が接続しています。

転送帯域

Spec

  • CPU-GCD : Inifity Fabric : 36+36 GB/s
  • Intra-GPU : Infinity Fabric : 200+200 GB/s
  • Inter-GPU(dual) : Infinity Fabric : 100+100 GB/s
  • Inter-GPU (single) : Infinity Fabric : 50+50 GB/s

測定値

  • Host-to-device / device-to-host : 30GB/s未満
  • 153 GB/s witin a GPU
  • 77 GB/s between dual-link GPUs
  • 39 G/s between single-link GPUs

GPU間はざっくり Spec の 77% ぐらいですね。CPU-GCD間は Spec の70 - 80%程度ですね。

DDR4-3200だと、64bit x 3.2GB /8 = 25.6GB、各NUMA には 2 channel 付いているので、2倍の 51.2GB/s がPeak帯域です。 1 channel に2枚のDIMMを接続すると、3200 ではなく、2933 になるようなので、23.4GB/s。x2 で46.8GB/s ぐらいです。

おわりに

こういうデータってなかなか出てこないので嬉しいです。

関連ブログ

vengineer.hatenablog.com

vengineer.hatenablog.com