はじめに
先月、
というブログをアップしましたが、TPU v5p の発表がありました。
GoogleがGeminiを発表しました。それに合わせて、TPU v5p も発表しました。Gemini (発音って、何?)ということで盛り上がっていますが、ここでは、TPU v5p を取り上げます。
説明のために、上記のサイトから画像等を引用します。
TPU v5p
v4, v5e v5p の比較です。
v4/v5e => v5p での大きな変更は、メモリ容量です。
メモリ構成を考える
- v4 : 32GB
- v5e : 16GB
でしたが、
- v5p : 95GB
v5e は TensorCore が 1 個なので、v4 に対して、HBMの容量が半分の 16GB です。
一方、v5p は 95GB です。96GB の内、1GB を使わないで 95GB となっていると思います。NVIDIAのGH200の141GB(144GB)のような感じです。
TPUでは、v4 (v4i) まで HBM2 を使っているのはこのブログでも取り上げました。
v5e では、HBM2e のようです。
v5p では、HBMのメモリ全体帯域は 2765GB/s のようです。2785 x 8 = 22,120Gbps.
22,120/1024 = 21.6 だとすると、
- 21.6 / 4 個 = 5.4 Gbps / 24GB x 4 = 96GB
- 21.6 / 6 個 = 3.6 Gbps / 16GB x 6 = 96GB
v5e は、HBM2e@3.2Gbps x 2 でした。v5p は HBM2e@3.6Gbps か HBM3
TRANDFORCE の 各社HBM情報です。ここから説明のために引用します。
これによると、HBM2eは3.6Gbpsまであるみたいですね。v5e の HBM2e と同じ回路を考えると、可能性は高いですね。
そうなると、v5e までの 1個のTensorCore に対して、HBM は 2個の構成を考えると、v5p は 3 個のTensorCoreが入っているかもしれませんね。(v4i は1個のHBMです)
TensorCore数を考える
v5p の性能は、
- BF16 : 459 FLOPS
- INT8 : 918 Tops
です。v5e と同じように、INT8 は BF16 の倍になっています。
TensorCore の数を 2 or 3 で考えてみると、TensorCore、1個のBF16 は、
- 459 / 3 = 153 TFLOPS
- 459 / 2 = 229.5 TFLOPS
v4 の 275 TFLOPS では、TensorCore、1個のBF16 は、
275 / 2 = 137.5 TFLOPS
459 / 3 = 153 TFLOPS : 153/137.5 = 1.11倍
- 459 / 2 = 229.5 TFLOPS : 229.5/137.5 = 1.67倍
v4 と v5e の 1個のTensorCore の構成は特に変更が無いと考えると、v5p も同様に構成の変更は無いと想定すると、1.11倍程度かな?
v4/v4i は、1.05GHz 程度で動いているようなので、1.11倍だと1.1655GHz、1.67倍だと1.75GHz になります。1.75GHz は辛そうなので、1.1655GHz ですかね。
おわりに
Google TPU v5p は、
- 3 コア構成
- 1 コアの性能は、1.1655GHz、153 TFLOPS(BF16) + HBM2e@3.6Gbps (16GBx2)
って感じですかね。
3つというのがしっくりしないので、
- 2コア構成
- 1コアの性能は、1.75GHz、229.5 TFLOPS(BF16) + HBM3@5.4Gbps (24GBx2)
かな?
さて、どちらでしょうかね。
追記)、2023.12.22
に、
- 2コア
- HBM2
- 1.75GHz
とありました。
- 2コア構成
- 1コアの性能は、1.75GHz、229.5 TFLOPS(BF16) + HBM2e@3.6Gbps (16GBx3)
でした
関連ブログ