Vengineerの妄想

人生を妄想しています。

NVIDIA GPU、L3 Cacheを投入する?

はじめに

NVIDIAのL2 Cacheの構成が GA100(A100)で変わり、GH100(H100)でも同じ構成になっているのは、このブログにもアップしました。

GH100(H100)の次(Blackwell : GB100)になったら、もしかしたら、L3 Cache が投入されるかもしれません。

再度、GPU Domain Specialization via Composable On-Package Architecture

このブログでも何度か取り上げた、GPU Domain Specialization via Composable On-Package Architecture では、GPU die を GPU Module と L3 Cache + HBM の 22種類のdie に分けて、性能を上げる作戦について説明しています。

説明のために下図を引用します。

論文の5ページ目の図も説明のために引用します。(d) の 2.5D COPA-GPU w/L3 and more DRAM(option) にて、L3 Cacheのサイズを 960MBと1920MB としたときのデータを取っています。GraphcoreのIPUが7nm(823 mm2)で900MBのSRAMを抱えているので、960MBは実現できるという想定のようです。両サイドの 1 die になるので、960MB x 2 = 1920MB となる計算です。ざっくり、L3 Cacheが2GBというとんでもない値です。

L3 Cache die を接続することで、HBMが6個から10個 あるいは 14個に増やすことができるようです。1 die の もともとの HBM x 3 に対して、2個、側面に接続できるようになります。側面を長くすることで、4個まで接続できるようになり、( 3 + 4 ) x 2 = 14個のHBMが接続できるようになります。HBM3であれば、32Gbit品を32枚スタックした 64GBも可能になり、10 x 64GB = 640GB、14 x 64GB = 896GBのメモリを接続できます。

おわりに

84個のSMまでは、1つの L2 Cache に接続しているということもこのブログに書きましたので、84 x 2 = 168個のSMの GPU Module に対して、L3 Cache die を接続したものが GB100 なのでしょうか?

GH100に対して、GH202というものも存在しているということは、4/20 のブログに書きました。GB202になった時、L3 Cache die 有な構成でも OK になるのって、どんな感じなんでしょうかね。

https://vengineer.hatenablog.com/