はじめに

NVIDIAのH200。H100に対しての変更点は、メモリが HBM3の96GBからHBM3eの141GBになっただけ？

で、メモリ帯域は？と調べてみたら、下記の記事では、4.8TB/s とありました。

gigazine.net

HBM Roadmap

下記のTrendforceの記事によると、

HBM3 :
- Samsung : 6.4Gbps
- SK hynix : 5.6 - 6.0Gbps
HBM3e
- Samsung :8
- SK hynix : 8
- Micron : 8

www.trendforce.com

H100/H200

H100のメモリ帯域は、3TB/s 。80GBは5個のHBM3なので、3,000 * 8 / 5 / 1024bit = 4.6875 Gbps。SK hynix の HBM3 を使っている

H200のメモリ帯域は、4.8TB/s。141GBは6個のHBM3またはHBM3eなので、4,800 * 8 / 6 / 1024bit = 6.25 Gbps

HBM3e なら SK Hynix が2024年3月に量産だから、売り上げは Q2.2024 になりますね。

B100

B100 は、2 die 構成で 1 die に HBM3e が4個付いていると想定すると、

6.4Gbps 品だと、6.4 x 1024 x 8 / 8 = 6.553 GB/s、1 die 換算で 3.2765GB/s で H100より大きい。つまり、1die で H100 の Compute をサポートできる！

8.0Gbps 品だと、8.0 x 1024 x 8 / 8 = 8.192 GB/s、1 die 換算で 4.096GB/s で H100 の 33%アップ。つまり、1 die で H100 の 1.33 倍の Compute をサポートできる！

おわりに

LLMでは、Computeの性能向上だけでなく、メモリ帯域と容量が重要になります。となると、Compute を増やすのではなく、メモリ帯域および容量のバランスをとって、適当な量のComputeのdieを2つにした方がいいのでしょうか？

あ、L3 Cache という作戦がありますが、LLMで L3 Cache って効果的なのだろうか？

GPUのL2/L3 Cacheって、LLMに対してはどのような効果があるのでしょうか？
この論文(https://t.co/zfhz57YVgT)によると、Trainingでは transformer のグラフがあるが、Inference は無いので L3 Cache は効果がなさそうですね。まー、そうですよね。

となると、Training用とInference用のチップが必要 pic.twitter.com/aO8Sf49uHo
— Vengineer＠ (@Vengineer) 2024年2月11日