Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

AMD MI300 の情報アップデート

はじめに

ISC23にて、AMD MI300の情報がアップデートされたようです。

MI300 Nodeは、単体のCPUはなくなるシステム構成

下図は上記のツイートにあるTom's hardwareの記事の中から説明のために引用します。

  • MI250 Node では、AMD EPYC (CPU)が4つのMI250と接続しています。MI250間でも接続しています。
  • MI300 Node では、MI300内にCPU dieがあるので、別途CPUは必要なくなり、MI300間で全接続しています。

ブログ、Approaching the Final Frontier: Lessons Learned from the Deployment of HPE/Cray EX Spock and Crusher supercomputersの中で、Crusher (基本的にはFrontierのノード構成と同じ)のノード構成を取り上げました。

下図は Crusher のノード構成です。説明のために引用します。CPU 8コアに対して、MI250の 1 dieを割り当てています。

MI300には、24コアのCPUと3つのGPU dieが載っています。8コアで1 GPUは Crusher/Frontierと同じ割合です。Crusher/Frontierでは 1ノード、8 GPU die でしたが、MI300 Node (EL Capitan) では、1 ノード、12 GPU die になり、CPUコア数とGPUの割合は同じです(MI250の GPU die と MI300 の GPU dieは機能的には同じだと思っています)。

Crusher/Frontier(MI250 Node)では、NIC(Slingshot-11)がMI250XのPCIe Gen4 ESM(PCIe Gen4 25Gbps相当)に接続していましたが、 El Capitan(MI300 Node)では、NICはMI300のPCIe に接続するんでしょうかね。

下記の写真は上記 Tom's hardware の記事にある El Capitan の HPE compute blade のようです。タイトルが MI300A になっていますね。説明のために引用します。金色のところがMI300で、緑の基板がSlingshotなんでしょうね。左側に5つのコネクタがあります。この内、4つがSlingshot用のコネクタでしょうね。残りの1個は、

下図はServerTheHomeのBehold the AMD Instinct MI250X OAM at SC21の記事にあるFrontierのCompute Bladeの背面です。説明のために引用します。

これと、上記のMI300の左側を比較すると、上から3番目以外は Slingshot用で、上から3番目は Storage (Rabbit) 用のコネクタのようです。下図は、Livermore’s El Capitan Supercomputer to Debut HPE ‘Rabbit’ Near Node Local Storageから説明のために引用します。Compute Blade上のCPUからStorage用のPCIe x4 が出ています。ということは、MI300 Node では、各MI300からPCIe x4 かそれぞれ1つづつ、合計で x4 x 4 本、ここに出ているんでしょうかね。赤い基板に M.2 のコネクタっぽいものが付いています。もしかしたら、SSDで、4つの MI300 から PCIe Switch 経由でこの SSD にアクセスできるようにしているのかもしれません。となると、x4 x4 ではなく、各Node では x4 で内部のSSD、x4 で外部のRabbitへの接続という構成になっているかもしれません。

おわりに

vengineer.hatenablog.com

にも書きましたが、

OAK RIDGE National Laboratory : Spock (AMD MI100) => OAK RIDGE National Labortory : Crusher/Frontier (AMD MI250X) => El Capitan (AMD MI300) と、基本的には同じような仕組みになっているのは凄いというか、一貫していますね。

CrayのSupercomputer のシステム構成がいいからなんでしょうかね。。。。

追記)、2023.05.25

下図は、AMD Milan “Trento” 7A53 Epyc CPU + Instinct MI250X GPUのFrontier で紹介した Frontier の Compute Blade です。説明のために引用します。

Frontierは、2 Node (EPYC + MI250X x 4 + Slingshot-11 x 4) x 2 、El Capitan は 2 Node (MI300 x 4 + Slingshot-11 x 4) x2 です。Slingshot-11のBoardの下にもMI300がありますね。

1 Blade の中に入る Node 数が半分になっているのは、なんででしょうかね。