はじめに
Google TPU v5p に関しては、このブログでも12月12日に取り上げました。
この時点では、Core が何個入っているかはわかりませんでした。
Cloud TPU v5p トレーニング
v5p トレーニングの説明が公開されました。
v5p は、v4 に対して
- 最大 2 倍の性能
- Pod に 2 倍の TPU を詰め込み(最大スライスは v4 の 3k に対して 6k)
- Pod レベルで最大 4 倍の性能を実現
ということ。
v5p Chipでは、
- 高いクロック周波数(1.05 Ghz に対して 1.75 Ghz)
- 大規模な埋め込み用の SparseCore が追加 (チップあたり 4 つの SparseCore)
高帯域幅メモリ(HBM)容量を 3 倍 (32GB => 95GB)
2 つの TensorCore
- 各 TensorCore には、4 つのマトリックス乗算ユニット(MXU)、1 つのベクトル ユニット、1 つのスカラー ユニット
に関しては、v4 と変わらないと思います。
v4 の BF16の性能が 275 TFLOPS に対して、v5p の BF16の性能は 459 TFLOPS です。 459/275 = 1.669 倍。1.05 x 1.699 = 1.752GHz
ということで、動作周波数を 1.75倍にした感じです。
- v2 : 700MHz (TSMC 16nm)
- v3 : 900MHz (TSMC 16nm)
- v4 : 1050MHz (TSMC N7)
v5p : 1750MHz (TSMC N5)
v2 : 46 TFLOPS (x1 MUX)
- v3 : 123 TFLOPS (x2 MXU)
- v4 : 275 TFLOPS (x4 MXU)
- v5p : 459 TFLOPS (x4 MXU)
HBM2なので、最大16GB。95GB だと、6個必要。2765GB/6 *8bit / 1024bit = 3.6Gbps。HBM2e@3.6Gbps x 6個、となっていそうです。
- v2 : 16GB
- v3 : 32GB
- v4 : 32GB
- v5p : 95GB
お値段
- v5e : $1.20
- v3 Pod : $2.00
- v3 device : $2.20
- v4 Pod : $3.20
- v5p : $4.20
v4 Pod に対して、$1増。
おわりに
TPU v5p、特にTensor Core部分には機能の追加は無し。Sparse Coreを4個にして、チップ間のための性能向上を図ったように思えます。