はじめに
Twitterを眺めていたら、下記のTweetが流れてきました。
In this paper is presented the first published characterization of the relationship between communication primitives and achieved bandwidth on CDNA2 GPUs and Infinity Fabric 3 interconnect in the MI250X. #HPChttps://t.co/B27Z6nPevt pic.twitter.com/YaWlz7P7cR
— Underfox (@Underfox3) 2023年3月1日
AMD MI250X を使った Supercomputer Crusher に関する論文のようです。
論文は、
です。
node構成
上記の論文には下図があります。説明のために引用します。CPUであるEPYC 7A53 を 4-NUMA で使っています。各 NUMA には1つのMI250X(2 die)が接続しています。
転送帯域
Spec
- CPU-GCD : Inifity Fabric : 36+36 GB/s
- Intra-GPU : Infinity Fabric : 200+200 GB/s
- Inter-GPU(dual) : Infinity Fabric : 100+100 GB/s
- Inter-GPU (single) : Infinity Fabric : 50+50 GB/s
測定値
- Host-to-device / device-to-host : 30GB/s未満
- 153 GB/s witin a GPU
- 77 GB/s between dual-link GPUs
- 39 G/s between single-link GPUs
GPU間はざっくり Spec の 77% ぐらいですね。CPU-GCD間は Spec の70 - 80%程度ですね。
DDR4-3200だと、64bit x 3.2GB /8 = 25.6GB、各NUMA には 2 channel 付いているので、2倍の 51.2GB/s がPeak帯域です。 1 channel に2枚のDIMMを接続すると、3200 ではなく、2933 になるようなので、23.4GB/s。x2 で46.8GB/s ぐらいです。
おわりに
こういうデータってなかなか出てこないので嬉しいです。
関連ブログ