はじめに
MosaicML と CoreWeave の Benchmarking Large Language Models on NVIDIA H100 GPUs というブログから、H100の性能がちょこっとわかりました。
H100 と A100 の性能
TF32, BF16, FP16 の性能比が H100 vs A100 で 3.2 倍ぐらいです。H100 は FP8 もサポートしていて、FP16 の倍です。
GPT training performance
H100 SXM5 (80GB) vs A100 SXM4 (80GB) における GPT の各パラメータに対するスループット(tok/sec) が下記の表です。説明のために引用します。
A100 BF16 に対して、H100 BF16 の 1B/3B に対しては、2.2 倍です。H100 BF8 の 1B/3B は 2.7倍/2.8倍です。一方、7B/30B の FP8 になると、ちょっと増えて、3.0/3.3 ぐらいです。
お値段
下記の表は、7B のモデルを学習するときの時間とコストです。説明のために引用します。 H100 と A100 でのBF16での学習時間は倍半分ですが、コストはほぼ同じです。つまり、H100 を使うことで時間を買うという感じなんですね。。。
おわりに
H100 vs A100 の FP16 のスペック比が 3.2 だけど、LLMだと 2.2 ぐらいなのはなんででしょうか?
誰か、その理由を教えてください。