Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Google TPU v5pの構成、復習

はじめに

Google TPU v5p に関しては、このブログでも12月12日に取り上げました。

vengineer.hatenablog.com

この時点では、Core が何個入っているかはわかりませんでした。

Cloud TPU v5p トレーニン

v5p トレーニングの説明が公開されました。

v5p は、v4 に対して

  • 最大 2 倍の性能
  • Pod に 2 倍の TPU を詰め込み(最大スライスは v4 の 3k に対して 6k)
  • Pod レベルで最大 4 倍の性能を実現

ということ。

v5p Chipでは、

  • 高いクロック周波数(1.05 Ghz に対して 1.75 Ghz)
  • 大規模な埋め込み用の SparseCore が追加 (チップあたり 4 つの SparseCore)
  • 帯域幅メモリ(HBM)容量を 3 倍 (32GB => 95GB)

  • 2 つの TensorCore

  • 各 TensorCore には、4 つのマトリックス乗算ユニット(MXU)、1 つのベクトル ユニット、1 つのスカラー ユニット

に関しては、v4 と変わらないと思います。

v4 の BF16の性能が 275 TFLOPS に対して、v5p の BF16の性能は 459 TFLOPS です。 459/275 = 1.669 倍。1.05 x 1.699 = 1.752GHz

ということで、動作周波数を 1.75倍にした感じです。

  • v2 : 700MHz (TSMC 16nm)
  • v3 : 900MHz (TSMC 16nm)
  • v4 : 1050MHz (TSMC N7)
  • v5p : 1750MHz (TSMC N5)

  • v2 : 46 TFLOPS (x1 MUX)

  • v3 : 123 TFLOPS (x2 MXU)
  • v4 : 275 TFLOPS (x4 MXU)
  • v5p : 459 TFLOPS (x4 MXU)

HBM2なので、最大16GB。95GB だと、6個必要。2765GB/6 *8bit / 1024bit = 3.6Gbps。HBM2e@3.6Gbps x 6個、となっていそうです。

  • v2 : 16GB
  • v3 : 32GB
  • v4 : 32GB
  • v5p : 95GB

お値段

  • v5e : $1.20
  • v3 Pod : $2.00
  • v3 device : $2.20
  • v4 Pod : $3.20
  • v5p : $4.20

v4 Pod に対して、$1増。

おわりに

TPU v5p、特にTensor Core部分には機能の追加は無し。Sparse Coreを4個にして、チップ間のための性能向上を図ったように思えます。