はじめに

いつものようにいろいろとGoogleくんに聴いていたら、Google TPUのドキュメントが更新されていたので、記録のためにブログに残します。

Google TPUの説明
v4の説明が追加されただけでなく、Tensorflow, Pytorch, JAXでどうやって動くかの説明も追加されていますねhttps://t.co/zl6CxsYAGv
— Vengineer＠ (@Vengineer) 2023年1月22日

Google TPU

Google TPUの v4/v3/v2 について、詳しく書かれています。

構成

チップ当たりの性能

v4 : 275 TFLOPS（bf16 または int8）(v3 に対して、2.2357倍、動作周波数で 1.117倍、MXUが2倍 = 1.117x2 = 2.234でだいたいあっている)
v3 : 123 TFLOPS（bf16）
v2 : 45 TFLOPS

メモリ帯域

上記のサイトにはなかった動作周波数 (Wikipedia)

Pod Size

ここまでは今まで公開されていたのでいいんですが、これ以外に色々と載っています。

TPU は、次の構成で使用できます。

v2とv3では、TPUノードという構成がある

TPU ノードアーキテクチャは、gRPC を介して TPU ホストと通信するユーザー VM で構成されています。このアーキテクチャを使用する場合、TPU ホストに直接アクセスできないため、トレーニングと TPU のエラーをデバッグすることが困難になります。

下図を説明のために引用します。

これに対して、TPU VM アーキテクチャを使用すると、TPU デバイスに物理的に接続されている VM に SSH 接続できます。VM への root アクセス権があるため、任意のコードを実行できます。コンパイラとランタイムデバッグログ、エラーメッセージにアクセスできます。

下図を説明のために引用します。

ここまででなんで、TPUノードとTPU VMの説明をしているのかな？と思いましたが、この後の「サポートされているフレームワーク」のための前振りだったようです。

TensorFlow と PyTorch/JAX では、TPUノードでの動作が違うようです。

TPUノードのTPUホストでは、TensorFlowのruntimeが動いていて、gRPC 経由で TensorFlow の User VM/PyTorch の User VM/JAX の User VM と通信しています。

このブログでも Google TPU については何度か書いていますが、TPUノードやTPU VMについては、ちょっと情報が増えてよかったです。