Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Google TPU v5e と AWS Trainium の比較

はじめに

Microsoft が Maia 100 を発表し、来年にサービスインすることで、3大 Cloud Service

にて、AIアクセラレータを利用できるようになります。

今回は、既にサービスを行っている

について、振り返りたいと思います。

Google TPU v5e

Google TPU v5e の性能は、

  • BF16 : 197 TFLOPS
  • INT8 : 343 TFLOPS

pricing は、$1.20/hour です。

AWS Trainium/Inferentia2

Trainium および Inferentia2 の性能は、

  • FP8/FP16/BF16/TF32 : 190 TFLOPS

です

pricing は、下記のように、

  • trn1.32xlarg : $21.50 (Trainium x 16)、$1.34375
  • inf2.24xlarge : $6.49 (Inferentia2 x 6)、$1.0817
  • inf2.x24xlarge : $12.98 (Inferentia2 x 12)、$1.0817

です。

比較

TPU v5e と Trainium/ の BF16 はほぼ同じなので、

で比較すると、

  • $21.5 vs $19.2

で、ほぼ同じです。

TPU v5e の INT8 が 383 TFLOPS、Inferentia2 の FP8 が 190 TFLOPS なので、

で比較すると、

  • $12.98 vs $7.2

で、TPU v5e の方がお安いです。

FP16で比較すると、

になるので、

  • $12.98 vs $14.4

になり、ちょっとだけ、AWS Inferentia2 の方がお安いです。

おわりに

AWS trn1.32xlarge の性能は、190 T x 16 = 3040 TFLOPS == 3 PFLOPS です。これが、$21.5 です。

AWS Trainium2 は、Trainium の4倍ということで、ノードは 8個のTrainium2になりそうなので、2倍になり、6 PFLOPS です。これが2倍の $43 になることはなさそうです。1.5倍程度と考えると、6 PFLOPS を $30 ぐらいだとお安いということになるんでしょうかね。

Trainiumの時は、FP8 と FP16/BF16 が同じ 190 TFLOPS だったので、Trainium2 はもしかしたら、FP8 を2倍にして、NeuronCoreの数は2個のままかもしれません。

となると、BF16/FP16 は同じで、FP8が2倍になっているというのかもしれません。

つまり、Trainium2 は、v5e 対抗であり、推論時でも Google TPU v5e と同等にできるということになるのでしょうか。。。

MicrosoftのMaia 100がどのぐらいのprining になるかというと、

  • 3 PFLOPS では、$20以下は must
  • 6 PFLOPS では、$30台

ということではないでしょうか?

AWS の H100のノード(p5.48xlarge)、H100 x 8 (640GB)で、$98.32 です。H100は、1 POps(BF16/FP16) なので 3 POpsだと、3/8 x $98.32 = $36.87 です。

ベンチマークは、$20以下で、H100ベースだと、$36.87です。

36.87/20 = 1.8435 なので、1.8倍の性能であれば、OKですね。。。