はじめに

AMDのGPUもゲームだけでなく、HPC向けにも提供しているのを気にしていなかったのですが、現在は販売している Instinct MI100、下記の PC Watch によると FP32/64 では NVIDIA A100 を上回っていんですね.

pc.watch.impress.co.jp

NVIDIA と違う点は、TensorCore のような機能が無いようです。また、PCIe Card のみの提供。A100 は PCIe Card と OAM。

32GB の HBM2 を搭載ということなので、この点に関しては A100 ではなく、V100 と同じ。

Inifnity Fabric にて、GPU間の接続も可能。Link数は 3 で4基のGPUを接続でき、Peakの帯域は 92 GB/s ということ。NVIDIAの NVLink v3 は 1つのLink では 50 GB/s 。

AMD MI100 のビデオ

www.youtube.com

HPE用AMD Instinct MI100 PCIeグラフィックスアクセラレータのお値段は、2,840,000 円 (税抜)。。高い。。。

MI100 関連記事：

ascii.jp

MI200

今日のブログの本題は、MI100 ではなく、MI200。TwitterのTLに流れてきた下記のツイート(説明のために、引用します)の図がどうやら、AMD MI200 っぽいんです。

Besides using a giant silicon interposer, there is also CoWoS-L with local silicon bridges.
However timing might be an issue, recently TSMC stated readiness for 2022/23 and not 2021 anymore.
Another one is the size limit, as on CoWoS-S it's about 2500mm² for the interposer
11/x pic.twitter.com/x865UedmwI
— Locuza (@Locuza_) 2021年8月17日

MI100 では、1 die + 4 HBM2 でしたが、MI200 では、2 die + 8 HBM になるっぽいです。同じ die を対抗で置き、die 間を Die-to-Die connections というもので接続する。右側の写真では、TSMC の CoWoS にて、8個のHBM2Eを置けるぐらいにできるようになったようです。今までは、NVIDIA A100 の HBM2E が 6個。図をよく見ると、SoCは 1 die ではなく、 2 die になっているので、MI200 もこれを利用できるということに。このパッケージは PCIe Card ではなく、OAMのみという情報もあります。

NVIDIA Ampere Next

となると、来年出てくる NVIDIA Ampere Nexgt も MI200 と同様に 8 x HBME2 になる可能性が大です。ただし、die のサイズは A100 の大きさ(826 mm²)だと 2 die は Silicon Interposer に乗らないので、600mm² 程度にする必要があります。A100がTSMCの7nmなので、Ampere Next を TSMC の 5nm で実装すると予測すると、826 * 0.7 = 578.2 mm² になるのでいい感じかな？と思います。Ampere Next のポイントは die-to-die connection をどのように実装するかです。素直に NVLink v4 をそのまま使うというのがありますが、隣接する die 間の接続では違うものを実装する可能性は高いと思います。

A100の 2 die になるので、DGX A100も2倍の性能向上はできそうです。

GRACE との接続はどうする？

2023年に出てくるNVIDIAのGRACE。Ampere Nextと一緒に使うということですのね、Ampere Nextの die を 1 個のものと接続する可能性もあります。GRACEとAmpere Nextの間は、NVLink v4 で 500GB/s ということです。NVLink v3 では、50GB/s x 12 組で 600GB/s ということだったので。何組で接続してくるでしょうかね。。。