Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA の Blackwell と Rubin の 内部構成を妄想する

はじめに

まだ、BlackwellとRubinの内部構成は公開されていませんが、A100とH100のL2 Cacheのブログをベースに妄想したいと思います。

vengineer.hatenablog.com

Let's 妄想

振り返り : A100 (Ampere) と H100 (Hopper)

上記のブログに書いたように、A100 (Ampere) と H100 (Hopper) では、下記の内部の Crossbar は2つに分かれています。

Crossbarを跨ぐようなアクセスが発生すると、Latency が増えることになります。

Blackwell と Hopper の比較

Blackwell で変わることは、2 die になることです。仮に、下記の右側の Blackwell の図のように、各 Die が 1つの Crossbar にて SM や L2 Cache/Memory Controller が繋がっているとすると、2つの Die 間は、Die 間接続にて Crossbar 間のデータアクセスになります。ブロック図レベルではほぼ同じのような気がします。 ただし、Die内でのCrossbarの接続と 2 Die間でのCrossbarの接続では転送帯域が違うと思います。

Hopperの時は、1つの Crossbar には、3個のHBM3 (6個の512bitのMemory Controller)が接続しています。一方、上記の想定だと、Blackwell は 1つの Crossbar には、4個のHBM3e (8個の512bitのMemory Controller)が接続します。

Rubin と Blackwell の比較

Rubinは、Blackwellと同様に 2 Die です。内部構成は大きく変わらないと妄想します。違いは、HBMが 3e から 4 になることです。3e から 4 への違いは、データ幅が 1024bit から 2048bit になることです (たぶん)。これにより、メモリコントローラを 2倍の数にするかまではわかりません。

Rubin と Rubin Ultra の比較

Rubin から Rubin Ultra になると、Die が 2 から 3 になります。これにより、真ん中のCrossbarは両側のDieからアクセスされるようになります。

おわりに

  • Hopper => Blackwell : 2 die
  • Blackwell => Rubin : Multi die 構成のベース。I/O 部分 (PCIe/NVLink) を別 Die に (これについては、別途ブログに書きたいと思っています)
  • Rubin => Rubin Ultra : Mullti die (3 die) 構成のプロダクト

と3回に分けて、技術検証をするんだなー、と妄想しています。

それでは、今回はここまでで。

次回も、Let's 妄想!