Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA H100 と H200 の Inference Performanceの違いについて

はじめに

NVIDIA H100に対して、H200の LLM Inference 性能が向上すると、NVIDIAは下記のように言っています。

www.nvidia.com

  • LIama2 13B で、1.4X
  • GPT-3 175B で、1.6X
  • LIma2 70B で、1.9X

です。

H100 => H200 になって変わったもの

H100からH200になって変わったのは、メモリです。

  • H100 では、HBM3 80GB, 3TB/s
  • H200 では、HBM3e 141GB, 4.8TB/s

メモリ帯域が、1.6倍になっています。HBMへのアクセスがボトルネックであるのなら、1.6倍程度までは性能向上になると思います。。。

上記のデータでは、

  • LIama2 13B : 1.4X
  • GPT-3 175B : 1.6X

です。LIama2 13B なら、80G/141GBの両方に入るので、この1.4倍はメモリの帯域向上によるものでしょうか?

Llama2 13B: ISL 128, OSL 2K | Throughput | H100 1x GPU BS 64 | H200 1x GPU BS 128

とあるので、バッチサイズを2倍にしています。。

GPT-3 175B は、パラメータを4バイトとすると、700GBなのでHBMにはすべてのパラメータを搭載できません。

GPT-3 175B: ISL 80, OSL 200 | x8 H100 GPUs BS 64 | x8 H200 GPUs BS 128

とあります。8つのGPUによる推論のようです。700GB/8 = 87.5GB なので H100の時はHBMには載らないですが、H200の141GBなら載っているのかもしれません。その部分が影響しているかもです。

LIama2 70B は、パラメータを4バイトとすると、280GBなのでHBMにはすべてのパラメータを搭載できません。

Llama2 70B: ISL 2K, OSL 128 | Throughput | H100 1x GPU BS 8 | H200 1x GPU BS 32.

とあるので、バッチサイズを8倍にしています。。

これ、バッチサイズが違うと単純な比較できないですね。

おわりに

うーん、バッチサイズが同じ場合にどうなるかを知りたいです。。。