はじめに

先週日曜日(9月19日)の半導体チップの雑談。参加者はあたしを含めて3名。あたしはお外から中継したのですが、台風一過のような天気のため風が強く、風の音を拾ってしまって聞きにくいということで桜の木の下にしゃがんで中継しました。

その時のお題は、下記のAMD MI100 と MI200 でした。

vengineer.hatenablog.com

しかしながら、MI100とMI200のお話をする前に、AMD EPYC のお話をしました。

今日は、そのお話を文章にしてまとめたいと思います。

AMD ベースのスパコン

AMDのサイトのこれ。

www.amd.com

この中にある2つのスパコン。それもエクサスケール。説明のために引用します

f:id:Vengineer:20210920093448p:plain

共に、HPE (CRAY) 。

そして、システム構成は、下記のような感じ(説明のために引用します)

f:id:Vengineer:20210920093631p:plain

CPUのEPYCからは、DDR4メモリが2チャンネルと4個のGPUと接続しています。NVIDIAのGPUはPCIeですが、AMDのGPUはPCIeではなく、AMD Infinityで繋がっています。この AMD InfinityはEPYC間の接続に使われています。第二世代EPCのROMEには 8組のAMD Infinityがあって、その内、2つまたは3つを Dual Slot用としてEPYC間の接続に使っています。上記の図では、1つのEPYCと4つのGPUがAMD Infinity で繋がっているだけでなく、GPU間でもAMD Infinityで接続ています。

図の下の方に、To SlingShotとありますが、ここまでの線はPCIeです。SlingShotとは HPE (CRAY) の Interconnect です。基本的には数百GbEのネットワークなのですが、ノード間のSwitchがカスタムです。説明のために写真を引用します。

f:id:Vengineer:20210920094729p:plain

1Uの中にめっちゃ多いポートが付いています。右側では、めっちゃおおきなヒートシンクが載っていますね。

NVIDIAのGPU(A100)ベースのサーバーでは、2個のROME + 8個のA100 + 6個のNV Switchになっていますが、HPEのAMDサーバーは、1個のEPYC + 4個のAMD GPU になっています。これはCPU/GPU接続にAMD Inifinityを使うためです。PCIeはSlingShotのために使います。

おわりに

AMDがGPGPUをAMD Infinityで接続したシステムを出してきたことにより、NVIDIAのGPGPUを使ったサーバーだけでなく、AMDのCPU/GPUのサーバーも使われるようになりそうです。そして、IntelのPonte Vicchio が導入される 2022年、NVIDIAのGRACEが導入される 2023年。そんな感じで。