Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Intel Habana Gaudi2が Stable Diffusion にて、NVIDIA H100より 55%速いよという件について

はじめに

Xの投稿に下記の内容について、流れてきました。

wccftech の記事は、こちら。

wccftech.com

stability.ai の元記事

元記事は、stability.ai のブログです

stability.ai

というか、Intel Habana Gaudi2 を積極的に導入しています。Intel が協力しているからですね。4000台の Gaudi2 を調達しています。

ja.stability.ai

Gaudi2 と H100/80GB, A100/80GB の比較

Stable Diffusion 3 のケースでは、

下記の表は、上記の Stability.ai のブログから説明のために引用します。2ノードでの比較において、H100-80GB の 595 => 927、A100-80GB の 381 => 927 ということです。

ノード数を増やした比較(32ノード)では、A100-80GB に対して、3倍以上になっています。

Stable Beluga 2.5 70Bのケース(our fine-tuned version of LLaMA 2 70B)のケースでは、

  • 256 Gaudi 2 (PyTorch) : 116,777 tokens/secondで学習 (his involves using a FP16 datatype, a global batch size of 1024, gradient accumulation steps of 2, and micro batch size of 2)

  • Inference : Gaudi2 : 673 tokens/second per accelerator (using an input token size of 128 and output token size of 2048)

  • Inference : A100 (TensorRT-LLM) : 525 tokens/second

A100より、25%速いと。。

おわりに

  • Stable Diffusion 3 では、A100に対して3倍。
  • Stable Beluga 2.5 70B is our fine-tuned version of LLaMA 2 70B では、A100に対して、25%速いと。H100よりは速くないからデータを出していないのね。

まー、Stabitily.ai は、Stable Diffusionの会社ですからね。。。

Gaudi2関連ブログ

vengineer.hatenablog.com