はじめに

Google Cloud Next '23 にて、Google が TPU v5e を発表しました。

www.youtube.com

Efficient (Per/$ vs. TPU v4)
- 2X training
- 2.5x inference
Scalable
- 10s of Ks of chips (Multislice technology)

ほんのちょことしかなかったですが、下記のブログに詳しく書いてありました。

Expanding our AI-optimized infrastructure portfolio: Introducing Cloud TPU v5e and announcing A3 GA

上記のブログの中の下記のYoutube「Inside a Google Cloud TPU Data Center」に、TPU v4 Pod と TPU v5e および v5e Board が出てきました。

Inside a Google Cloud TPU Data Center

v5e Board と v5e Pod

以降、写真は上記の「 Inside a Google Cloud TPU Data Center」からの引用になります。

下記の写真は、v5e Board です。とにかくデカいです。チップの上下にあるヒートシンクは電源関連のためだと思います。v5e は4か所でねじ止めされて冷やされるのだと思います。

下記は、v4 Board です。ここから説明のために引用します。

v4 Board と v5e Board の違いは、ホストに接続するポートが 4個 => 2個。Board間を接続する ICI 用のコネクタが 4個口 x 4 => 4個口 x 2 になっています。v5e Boarrd には、4個のv5eが載っているので 2個のホストと接続するコネクタは上の方の2つのChipに接続しているんじゃないかと思っています。これは、PCIe Gen5 x8 Switchで2つの v5e と接続しているのでは？と

下図は、v5e Pod の写真です。こちらは、ブログ(Expanding our AI-optimized infrastructure portfolio: Introducing Cloud TPU v5e and announcing A3 GA)から引用します。v5e Pod は 256 CHipで構成しているようなので、左下の4つのRack (1 Rack に 16 Board x 4 Rack)で、4 x 16 x 4 = 256 chips