Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

Approaching the Final Frontier: Lessons Learned from the Deployment of HPE/Cray EX Spock and Crusher supercomputers

はじめに

調べ物をしていたら、見つけました

Spock => Crusher => Frontier

TOP500/GREEN500 を取った Frontier。

その前に、AMD MI100ベースSpock と、AMD MI250X ベースの Crusher というのがあったんですね。

  • Spock is a 36-node HPE/Cray EX supercomputer with one 64-core AMD EPYC 7662 processor, 256 GB of memory, and 4 AMD Instinct MI100 GPUs per node.

下図を説明のために引用します。MI100間はInfinity Fabric (46+46 GB/s)で接続、CPUとM100間は PCIe Gen4 x16 で接続。ネットワークはSlingshot-10 (12.5+12.5GB/s、100GbE)

  • Crusher is a 192-node HPE/Cray EX supercomputer with one 64-core AMD EPYC 7A53 “Optimized 3rd Gen EPYC” processor, 512 GB of DDR4 memory, and 4 AMD MI250X, each with 2 Graphics Compute Dies (GCDs).

下図を説明のために引用します。MI250X間はInfinity Fabric (50+50 GB/s)で接続、CPUとM100間は Infinity Fabric (36+36 GB/s)で接続。ネットワークはMI250XとPCI e Gen4 ESM(50+50GB/s、PCIe Gen4 の 16Gbps ではなく、25Gbps)で Slingshot-11 (25+25GB/s、200GbE)

NICがCPUではく、GPUに接続しているのおかしいな?と思っていましたが、MI250X が PCIe Bridge/Switch になればいいのでは?と気が付きました。

おわりに

Frontierの前に、ちゃんと、Spock/Crusher で事前の準備をしたんですね。