Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIAのHopper H100

はじめに

NVIDIAのAmpere A100の次のAmpere Next。どうやら、Hopper H100 っぽいです。。

Hopper H100

ネットの情報によると、

のようです。

videocardz.com

www.hardwaretimes.com

TSMC 2.5D CoWoS

EETimesの下記の記事、2021年のHot Chips でのチュートリアル、「TSMC packaging technologies for chiplets and 3D(チップレットと3次元集積に向けたTSMCのパッケージング技術)」

10年で5世代の進化を遂げた高性能パッケージング技術「CoWoS」(前編) 10年で5世代の進化を遂げた高性能パッケージング技術「CoWoS」(後編)

説明のために下図を、上記の記事から引用します。

  • 2016 : Gen-3、HBM x 4 : NVIDIA P100、V100
  • 2019 : Gen-4、HBM x 6 : NVIDIA A100
  • 2021 : Gen-5、HBM x 8 => たぶん、NVIDIA Hopper H100 が使う
  • 2023 : HBM x 12 個

f:id:Vengineer:20211201083754p:plain

H100 を妄想する

TSMC 5nm + TSMC CoWoS Gen-5 なので、die x 2 + HBM2E x 8 になると思う。

A100では、40GBと80GB版があるように、1つのHBM2Eが8GBと16GB。そうなると、H100では、8GB x 8 = 64GBと 16GB x 8 = 128GB になる。 A100 の die size は、826mm2 。CoWoS Gen-4のサイズが、1700mm2。CoWoS Gen-5のサイズが2500mm2なので、A100と同じサイズの die sizeは無理っぽい。上記の記事によると、2個のミニダイを総計1200mm-2の領域に載せるとあるので、1つの die は 600mm2。A100はTSMC 7nmなので、5nmにすると、0.7 サイズになると考えると、578.2mm2 になり、600mm2以下になる。

また、NVIDIAのGRACEは、Ampere Nextと下記のように接続すると発表済み(下図を説明のために引用します)。Ampere NextがH100であるのなら、GPUは4個ではなく、8 die になり、DGX A100と同じような構成になります。ただし、GPU間の接続はちょっと違うけど。

f:id:Vengineer:20211201084820p:plain

GRACEと接続するために、NVLink v4を開発し、H100の die間も NVLink v4 になるんでしょうね。4 Package 間だと、DGX A100のように NVSwitch は必要なくなり、コストも性能も上がるんでしょうね。 H100は、GRACEとは500GB/sになるので NVLink v4でも何組かは必要。A100では 50GT/s x (4+4)で片側 50GT/s x 4 = 200GT/s / 8 = 25GB/s x 2 = 50GB/s。これを 100GT/sにしても 100GB/s。500GB/sだと、5組必要。H100 x3 とPackage内のdie間接続でも必要ななので、(3 + 1 = 4) x 5 = 20組。合計、25組 25 x 4 x 4 = 400 SERDES。こんなに出せるだろうか?

おわりに

昨日のAWSの Trainiumは、800Gbps。50Gbps を 8本なのか? 100Gbpsが4本なのかはわかりませんが、800Gbpsで100GB/sになります。NVIDIAのNVLink v3が 25GB/s なので 4組必要って感じですね。