はじめに
AI学習用/推論用チップとしてのコスパについては、Google TPU v5e と AWS Trainium/Inferentia2 を比較したものをこのブログでも2023年12月4日に取り上げました。
TPU v5p が出たので、v5e は推論用という位置づけになると考えるとちょっと違うと思いますが、16 x 16 の構成、コア数で言えば256コアまで対応できるのである程度の学習にも使えると思います。
上記のブログでは、
- Google TPU v5e
- BF16 : 197 TFLOPS
- price
- $1.20/hour
- AWS Trainium/Inferentia2
- BF16 : 190 TFLOPS
- price
- $21.50 (Trainium x 16)、$1.34375
- $6.49 (Inferentia2 x 6)、$1.0817
- $12.98 (Inferentia2 x 12)、$1.0817
でした。
今回は、Databricks の下記の記事に、Intel Habana Gaudi2, NVIDIA A100-40G/80G, H100-80G のベンチマークを載っていましたので、上記の Google TPU v5e/AWS Trainium/Inferentia2 と比較したいと思います。
Gaudi2 と A100-40G/80G, H100-80G の比較
以下の図等は上記の記事から説明のために引用します。
下図は、
- TSMC N7/N6 ベース : Intel Habana Gaudi2, AMD MI250, NVIDIA A100-40GB, NVIDIA A100-80GB
- TSMC N5/N4ベース : Intel Habana Gaudi3, AMD MI300X, NVIDIA H100, NVIDIA-H200
の比較です。非常に分かりやすいです。
下図は、8xA100-40G, 8xA100-80G, 4xMI250, 8xGaudi 2, 8xH100 の比較です。MI250 は 2 die なので 4xMI250の構成になっているのですかね。
- 8xA100-80GB : 196 TFLOP/s/Device, 0.1378 ExaFLOP / $
- 8xA100-40GB : 179 TFLOP/s/Device, 0.1572 ExaFLOP / $
- 8xGaudi 2 : 240 TFLOP/s/Device, 0.6648 ExaFLOP / $
- 8xH100 : 437 TFLOPS/s/Device, 0.1280 ExaFLOP / $
8xGaudi2 は、A100-40GB/80GB/H100と比べて、4倍以上コスパがいいです。
8xGaudi2 の $10.42/hr は、上記の Google TPU v5e, AWS Trainium/Inferentia2 と比べると、
- TPU v5e x 8 : $1.2 x 8 = $9.6
- Trainium x 8 ($21.50=trn1.32xlarg)/2 = $10.75
- Inferentia2 x 8 ($6.49=inf2.24xlarge)/6x8 = $8.65
なので、
- AWS Trainium x 8 : $10.75
- Intel Habana Gaudi2 x 8 : $10.42
- Google TPU v5e x 8 : $9.6
- AWS Inferentia2 x 8 : $8.65
で、学習用では Trainium とほぼ同じのコスパになっています。
おわりに
AMD MI250x4 の性能が、152 TFLOP/s/Device になっているので、他のものよりちょっと低いですね。MI250Xは 2 dieなので、1 dieだとこうなっちゃうのですかね。お値段が分かるといいのですが、どうなんでしょうか?
下図は、The Nextplatformの「STACKING UP AMD MI200 VERSUS NVIDIA A100 COMPUTE ENGINES」という記事にあったものです。定価で下記のような感じのと想定しているようです。
- MI250 : $12,000
- MI250X : $14,500
- A100-40GB : $10,000
- A100-80GB : $12,000
TSMC N5/N4 の下記のデバイスでのベンチマークが出てくるとまた色々と分かってくるのでは?と思います。