はじめに
NVIDIAのH200。H100に対しての変更点は、メモリが HBM3の96GBからHBM3eの141GBになっただけ?
で、メモリ帯域は?と調べてみたら、下記の記事では、4.8TB/s とありました。
HBM Roadmap
下記のTrendforceの記事によると、
H100/H200
H100のメモリ帯域は、3TB/s 。80GBは5個のHBM3なので、3,000 * 8 / 5 / 1024bit = 4.6875 Gbps。SK hynix の HBM3 を使っている
H200のメモリ帯域は、4.8TB/s。141GBは6個のHBM3またはHBM3eなので、4,800 * 8 / 6 / 1024bit = 6.25 Gbps
HBM3e なら SK Hynix が2024年3月に量産だから、売り上げは Q2.2024 になりますね。
B100
B100 は、2 die 構成で 1 die に HBM3e が4個付いていると想定すると、
6.4Gbps 品だと、6.4 x 1024 x 8 / 8 = 6.553 GB/s、1 die 換算で 3.2765GB/s で H100より大きい。つまり、1die で H100 の Compute をサポートできる!
8.0Gbps 品だと、8.0 x 1024 x 8 / 8 = 8.192 GB/s、1 die 換算で 4.096GB/s で H100 の 33%アップ。つまり、1 die で H100 の 1.33 倍の Compute をサポートできる!
おわりに
LLMでは、Computeの性能向上だけでなく、メモリ帯域と容量が重要になります。となると、Compute を増やすのではなく、メモリ帯域および容量のバランスをとって、適当な量のComputeのdieを2つにした方がいいのでしょうか?
あ、L3 Cache という作戦がありますが、LLMで L3 Cache って効果的なのだろうか?
GPUのL2/L3 Cacheって、LLMに対してはどのような効果があるのでしょうか?
— Vengineer@ (@Vengineer) 2024年2月11日
この論文(https://t.co/zfhz57YVgT)によると、Trainingでは transformer のグラフがあるが、Inference は無いので L3 Cache は効果がなさそうですね。まー、そうですよね。
となると、Training用とInference用のチップが必要 pic.twitter.com/aO8Sf49uHo
から、
- LLM Inference では、L3 Cache は効果無
- LLM Training では、L3 Cache は効果有
コストを考えると、Inference用(L3 Cache無)とTraning用(L3 Cache有)の2つのプロダクトを出すといいのだが、どうだろうか?