Vengineerの妄想

人生を妄想しています。

Google TPU v5e の構成と性能

はじめに

昨日、Google TPU v5e に関するブログを書きました。

vengineer.hatenablog.com

その中で、v5e では、Multislice Technology なるものが出てきました。

Googleは、これについて、Overview を公開していました。

Cloud TPU Multislice Overview [Public Preview]

cloud.google.com

なかをざーと見たら、v5e ではなく、v4 でも使えるようです。

v5e についても色々と書いてありました。

cloud.google.com

v5eのスペックとブロック図が載っていたので、説明のために引用します。メモリは HBM2 で 16GB、819Gbps とあります。HBM3じゃなかったですね。819GBps なので、819 x 8 Gbps / 2個 / 1024bit = 3.199 Gbps となります。HBM2 ではなく、HBM2e ですね。

v4 では、TensorCoreが2つ載っていましたが、1つになっています。なので、HBMが4個ではなく、2個になっていたんですね。

ホストの接続の図もありましたので、説明のために引用します。

おわりに

  • HBM2(600Gbps = 600 x 8 / 1024bit = 2.34Gbps) は、HBM3ではなく、HBM2e@3.2Gbpsだった。3.2Gbps / 2.34 = 1.367倍
  • TensorCore は、2個ではなく、1個だった
  • bf16は、197TFLOPS、v4 は 275TFLOPS (1個のTensorCoreだと、137.5) なので、TensorCore は 1.43倍の性能向上

TPU v4の動作周波数が 1.05GHz ということなので、1.05 x 1.43 = 1.5 GHz で動いているんでしょうかね。

TPU v4 は水冷だったが、v5e は空冷っぽい。この点で、

  • Efficient (Per/$ vs. TPU v4)
    • 2X training
    • 2.5x inference

になったんでしょうかね。。