@Vengineerの戯言 : Twitter SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった
記録のために残します。
講演ビデオのこの部分から
Our new TPU v4 pods are 10 times as fast as v3. And a TPU v4 pod can deliver more than an exaflop of computing power — more than if 10 million people were on their laptops right now. It’s a historic milestone. #GoogleIO pic.twitter.com/YeEncTm7c1
— Google (@Google) 2021年5月18日
メモとしてのTweet
Google TPU v4は、v3の2倍以上とありますが、
— Vengineer@ (@Vengineer) 2021年5月19日
v4(4096 chips)で1exaflops ということは、v3(1024 chips) > 100petaflops から計算すると、2.5倍までにはなっていなし。v2(256 chips)で 11.5 だったので、46 => 110 = 2.39。これって、v2 => v3 への変更と同じ感じになるのかな?
v2は46Teraflops(x 256chips = 11.776Petaflops)
— Vengineer@ (@Vengineer) 2021年5月19日
v3は123Teraflops(x 1024chips = 125.952Petaflops)
v4は4096 chips で 1Exaflops (1chip = 244.14Teraflops)
これなら2倍になる。となると、Matrix演算器を2個から4個にすればいいのか?v2/v3は12nmだから、v4は7nmならね。https://t.co/AvJeXCsDKo
あ、また自分に教わった、v4 は 275Teraflops ?
— Vengineer@ (@Vengineer) 2021年5月19日
本当かな?https://t.co/c0itWWVgS0
あれおかしいな。
— Vengineer@ (@Vengineer) 2021年5月19日
v3では、8192コア(4096チップ)になっているので、
v4も同じく1チップの中に2コアのハズ。
となると、https://t.co/qx3dqhtivk
にあるように、v1の256x256をv2で128x128に変えたところを256x256に戻した?
この論文では、DLRM において、TPU-v3 で 2.4 minutes が TPU-v4 で 1.21 minutes と半分だった。
Exploring the limits of Concurrency in ML Training on Google TPUshttps://t.co/cx4Y787rYO
— Vengineer@ (@Vengineer) 2021年5月19日
この論文によると、Google TPU v3 Pod を4基をMeshで接続して使ったと。
v3-4基だと、v4-1基 と同じ 4096チップ
追記)、2021.05.22 The Next Platform のブログ、「GOOGLE HINTS ABOUT ITS HOMEGROWN TPUV4 AI ENGINES」を追加
記録のために、下記のTwitterのスレッドを残しておきます。
The Next PlatformのGoogle TPU v4の見解。
— Vengineer@ (@Vengineer) 2021年5月21日
あたしのはこれ。7nmだけどhttps://t.co/u67wieNzlK
チップ内のコア数は変わらないということなのでシストリックアレイのサイズをv1と同じ256x256にして、省エネのために動作クロック下げた説はどうだろうか? https://t.co/k6NF2Rkxak
2021.05.25 Googleのブログ: Google I/O 2021: Being helpful in moments that matter の写真を追加