はじめに

Twitterを眺めていたら、下記のTweetが流れてきました。

In this paper is presented the first published characterization of the relationship between communication primitives and achieved bandwidth on CDNA2 GPUs and Infinity Fabric 3 interconnect in the MI250X. #HPC https://t.co/B27Z6nPevt pic.twitter.com/YaWlz7P7cR
— Underfox (@Underfox3) 2023年3月1日

AMD MI250X を使った Supercomputer Crusher に関する論文のようです。

論文は、

Interconnect Bandwidth Heterogeneity on AMD MI250x and Infinity Fabric

です。

node構成

上記の論文には下図があります。説明のために引用します。CPUであるEPYC 7A53 を 4-NUMA で使っています。各 NUMA には1つのMI250X(2 die)が接続しています。

転送帯域

Spec

CPU-GCD : Inifity Fabric : 36+36 GB/s
Intra-GPU : Infinity Fabric : 200+200 GB/s
Inter-GPU(dual) : Infinity Fabric : 100+100 GB/s
Inter-GPU (single) : Infinity Fabric : 50+50 GB/s

測定値

Host-to-device / device-to-host : 30GB/s未満
153 GB/s witin a GPU
77 GB/s between dual-link GPUs
39 G/s between single-link GPUs

GPU間はざっくり Spec の 77% ぐらいですね。CPU-GCD間は Spec の70 - 80%程度ですね。

DDR4-3200だと、64bit x 3.2GB /8 = 25.6GB、各NUMA には 2 channel 付いているので、2倍の 51.2GB/s がPeak帯域です。 1 channel に2枚のDIMMを接続すると、3200 ではなく、2933 になるようなので、23.4GB/s。x2 で46.8GB/s ぐらいです。