Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA H100 vs A100

はじめに

MosaicML と CoreWeave の Benchmarking Large Language Models on NVIDIA H100 GPUs というブログから、H100の性能がちょこっとわかりました。

www.mosaicml.com

H100 と A100 の性能

TF32, BF16, FP16 の性能比が H100 vs A100 で 3.2 倍ぐらいです。H100 は FP8 もサポートしていて、FP16 の倍です。

GPT training performance

H100 SXM5 (80GB) vs A100 SXM4 (80GB) における GPT の各パラメータに対するスループット(tok/sec) が下記の表です。説明のために引用します。

A100 BF16 に対して、H100 BF16 の 1B/3B に対しては、2.2 倍です。H100 BF8 の 1B/3B は 2.7倍/2.8倍です。一方、7B/30B の FP8 になると、ちょっと増えて、3.0/3.3 ぐらいです。

お値段

下記の表は、7B のモデルを学習するときの時間とコストです。説明のために引用します。 H100 と A100 でのBF16での学習時間は倍半分ですが、コストはほぼ同じです。つまり、H100 を使うことで時間を買うという感じなんですね。。。

おわりに

H100 vs A100 の FP16 のスペック比が 3.2 だけど、LLMだと 2.2 ぐらいなのはなんででしょうか?

誰か、その理由を教えてください。