MLPerf v0.7の結果と TPU v4は 275 TFLOPS & AMD Rome x2

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

Google からアナウンスされた、これ。

cloud.google.com

MLPerf v0.7のGoogle TPU v3での結果が出ているんだけど、8つのベンチマークの内、4つは1分以下になっているよ。実際に運用する側からすると、1分以下でいろいろできるのは嬉しいと思うんだけど、ベンチマークとしてはもう競争しても意味無いレベルに速くなったんじゃん。

ちなみに、Google TPU v3 Pod (1024コア)って、これですよ。これが4つですよ。

ここ(Hotchips 31での講演資料の42頁から引用)

f:id:Vengineer:20200801091456p:plain

まー、Google TPU v3 Podを4台使える環境って、Google内部しかないと思うので、

さー、我々の富豪の結果を見てくれ、という感じになってしまうのか。。

おまけに、64チップ(16ボード)の TPU v4 Training MLPerf v0.7 でやると、64チップの TPU v3 Training MLPerf v0.7 では、平均で 2.7x (2.2から3.7)速かったと。

なんで、TPU v3 MLPerf v0.7 での比較じゃないんだろうか？

Figure 2: TPU v4 results in Google’s MLPerf Training v0.7 Research submission show an average improvement of 2.7 times over comparable TPU v3 results from Google’s MLPerf Training v0.6 Available submission at the identical scale of 64 chips. Improvements are due to hardware innovations in TPU v4 as well as software improvements.

にあるように、TPU v4 の機能アップもあるけど、ソフトウェアの改善もあるようなので、v3 & v0.7 & 64 chips の結果も載せてほしかった。

Googlt TPU v4 の妄想ですが、こんな感じだと思っています。

v2/3は12nmだったので、v4は7nmなのかな。
コア数、2から4にして、HBM2も倍に増やして、
コア周波数は1GHz超え、
ICIの周波数はどのくらい速くなったのだろうか。 https://t.co/Gpks71H1mm
— Vengineer＠アマゾンプライムで映画三昧 (@Vengineer) 2020年7月29日

とおもいましたが、これを見つけて、ホストは、AMD Rome x2で、コア数も v3 と同じ2コアっぽい。

これ。https://t.co/PqPFvTKabi
— Vengineer＠アマゾンプライムで映画三昧 (@Vengineer) 2020年8月1日

TPU v2は、45 TFLOPS
TPU v3は、1ユニット当たり 1PFLOPShttps://t.co/3ynA6gCDpS

にあるように、
v2は700MHzでMXU x1、v3は940MHzでMXU x2なので、
45 TFLOPS * 940/700 * 2 = 120 TFLOPS

v4は、275 TFLOPSのようなので、2.2倍ぐらいね。https://t.co/PqPFvTKabi
— Vengineer＠アマゾンプライムで映画三昧 (@Vengineer) 2020年8月1日