はじめに
昨日、Google TPU v5e に関するブログを書きました。
その中で、v5e では、Multislice Technology なるものが出てきました。
Googleは、これについて、Overview を公開していました。
Cloud TPU Multislice Overview [Public Preview]
なかをざーと見たら、v5e ではなく、v4 でも使えるようです。
v5e についても色々と書いてありました。
v5eのスペックとブロック図が載っていたので、説明のために引用します。メモリは HBM2 で 16GB、819Gbps とあります。HBM3じゃなかったですね。819GBps なので、819 x 8 Gbps / 2個 / 1024bit = 3.199 Gbps となります。HBM2 ではなく、HBM2e ですね。
v4 では、TensorCoreが2つ載っていましたが、1つになっています。なので、HBMが4個ではなく、2個になっていたんですね。
ホストの接続の図もありましたので、説明のために引用します。
おわりに
- HBM2(600Gbps = 600 x 8 / 1024bit = 2.34Gbps) は、HBM3ではなく、HBM2e@3.2Gbpsだった。3.2Gbps / 2.34 = 1.367倍
- TensorCore は、2個ではなく、1個だった
- bf16は、197TFLOPS、v4 は 275TFLOPS (1個のTensorCoreだと、137.5) なので、TensorCore は 1.43倍の性能向上
TPU v4の動作周波数が 1.05GHz ということなので、1.05 x 1.43 = 1.5 GHz で動いているんでしょうかね。
TPU v4 は水冷だったが、v5e は空冷っぽい。この点で、
- Efficient (Per/$ vs. TPU v4)
- 2X training
- 2.5x inference
になったんでしょうかね。。