Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA H200のメモリ帯域は 4.8TB/s、B100のメモリ帯域は、どうなる?

はじめに

NVIDIAのH200。H100に対しての変更点は、メモリが HBM3の96GBからHBM3eの141GBになっただけ?

で、メモリ帯域は?と調べてみたら、下記の記事では、4.8TB/s とありました。

gigazine.net

HBM Roadmap

下記のTrendforceの記事によると、

  • HBM3 :

    • Samsung : 6.4Gbps
    • SK hynix : 5.6 - 6.0Gbps
  • HBM3e

    • Samsung :8
    • SK hynix : 8
    • Micron : 8

www.trendforce.com

H100/H200

H100のメモリ帯域は、3TB/s 。80GBは5個のHBM3なので、3,000 * 8 / 5 / 1024bit = 4.6875 Gbps。SK hynix の HBM3 を使っている

H200のメモリ帯域は、4.8TB/s。141GBは6個のHBM3またはHBM3eなので、4,800 * 8 / 6 / 1024bit = 6.25 Gbps

HBM3e なら SK Hynix が2024年3月に量産だから、売り上げは Q2.2024 になりますね。

B100

B100 は、2 die 構成で 1 die に HBM3e が4個付いていると想定すると、

6.4Gbps 品だと、6.4 x 1024 x 8 / 8 = 6.553 GB/s、1 die 換算で 3.2765GB/s で H100より大きい。つまり、1die で H100 の Compute をサポートできる!

8.0Gbps 品だと、8.0 x 1024 x 8 / 8 = 8.192 GB/s、1 die 換算で 4.096GB/s で H100 の 33%アップ。つまり、1 die で H100 の 1.33 倍の Compute をサポートできる!

おわりに

LLMでは、Computeの性能向上だけでなく、メモリ帯域と容量が重要になります。となると、Compute を増やすのではなく、メモリ帯域および容量のバランスをとって、適当な量のComputeのdieを2つにした方がいいのでしょうか?

あ、L3 Cache という作戦がありますが、LLMで L3 Cache って効果的なのだろうか?

から、

  • LLM Inference では、L3 Cache は効果無
  • LLM Training では、L3 Cache は効果有

コストを考えると、Inference用(L3 Cache無)とTraning用(L3 Cache有)の2つのプロダクトを出すといいのだが、どうだろうか?