はじめに

OpenAIのGPT-4oが優秀ということなので、Google TPUについて、聞いてみたら、凄いことが出てきて、それがあったので記録に残します。

GPT-4oに聞いたこと

あたし : Google TPUに関して、v2 から v6 について、時系列でまとめてください。

GPT-4o の回答

GoogleのTensor Processing Unit（TPU）は、Googleが開発したカスタムアクセラレータで、特に機械学習のワークロードを高速化するために設計されています。以下に、TPU v2からv6までの進化を時系列でまとめます。

TPU v2 (2017年)

発表: 2017年5月、Google I/Oで発表
アーキテクチャ: 45TFLOPSの性能を持つ。
メモリ: 各TPUには8GBの高帯域幅メモリ（HBM）が搭載され、帯域幅は600GB/s。
構成: 単一のTPUボードには4つのTPUチップが搭載されており、TPU Podでは最大64TPUボード（256 TPUチップ）を1つのクラスタとして利用可能。
用途: トレーニングと推論の両方をサポート。
特徴: 畳み込みニューラルネットワークやリカレントニューラルネットワークの計算に最適化。

TPU v3 (2018年)

発表: 2018年5月、Google I/Oで発表
アーキテクチャ: TPU v2の性能を倍増し、90TFLOPSの計算能力。
メモリ: 各TPUには16GBの高帯域幅メモリ（HBM2）が搭載され、帯域幅は900GB/s。
冷却技術: 水冷方式を採用し、さらに高密度な配置が可能。
構成: TPU Podでは最大1024 TPUチップ（256 TPUボード）をクラスタとして利用可能。
用途: 大規模な機械学習モデルのトレーニングに最適。

TPU v4 (2021年)

発表: 2021年5月、Google I/Oで発表
アーキテクチャ: TPU v3のさらに2倍の性能を持ち、275TFLOPSの計算能力。
メモリ: 各TPUには32GBのHBM2eが搭載され、帯域幅は1.2TB/s。
構成: TPU Podでは最大4096 TPUチップ（1024 TPUボード）をクラスタとして利用可能。
用途: 最先端の機械学習モデル、特にトランスフォーマーモデルのトレーニングに最適。
特徴: エネルギー効率の向上、AIモデルのスケーラビリティの向上。

TPU v5 (2023年)

発表: 2023年5月、Google I/Oで発表
アーキテクチャ: TPU v4の性能をさらに向上させ、500TFLOPSの計算能力。
メモリ: 各TPUには64GBのHBM3が搭載され、帯域幅は1.5TB/s。
構成: TPU Podでは最大8192 TPUチップ（2048 TPUボード）をクラスタとして利用可能。
用途: 巨大なAIモデル、特に大規模な言語モデル（LLMs）のトレーニングと推論に最適。
特徴: 改良されたインターコネクト技術と冷却システムによる高効率。

TPU v6 (2024年)

発表: 2024年5月、Google I/Oで発表
アーキテクチャ: TPU v5の性能をさらに向上させ、1000TFLOPSの計算能力。
メモリ: 各TPUには128GBのHBM3が搭載され、帯域幅は2.5TB/s。
構成: TPU Podでは最大16,384 TPUチップ（4096 TPUボード）をクラスタとして利用可能。
用途: 次世代のAIアプリケーション、特にリアルタイムの自然言語処理や複雑なシミュレーションに最適。
特徴: さらに改良された電力効率と冷却技術、AIの学習および推論の効率化を実現する新しいアーキテクチャ。

まとめ

GoogleのTPUは、各世代ごとに性能と効率を大幅に向上させ、より大規模で複雑な機械学習モデルのトレーニングと推論を可能にしています。TPU v2からv6に至る進化は、AIおよび機械学習の分野において、ますます高性能でスケーラブルなソリューションを提供しています。

Google TPU v6 は、2024年のGoogle I/O で発表とあります。

そして、これを聞いたのが、2024年5月14日。そう、今晩、Google I/O があるわけです。

GPT-4o さん、

Google TPU v6 を 2024.5 に発表

え、Google I/O って、5/14 なので、今晩？ pic.twitter.com/sW4L7L7Ztk
— Vengineerの妄想 (@Vengineer) 2024年5月14日

実際のGoogle I/Oで、TPU v6 が発表される！！！！！

Google の Blog

下図は、Google I/O 2024 のビデオから説明のために引用します。

cloud.google.com

TPUv6「Trillium」：TPUv5eの計算性能の4.7倍
GPT-4oの予測では、1000 TFLOPS
v5e の性能は、197 TFLOPS なので、197 x 4.7 = 925.9 TFLOPS

正解！

To achieve this level of performance, we’ve expanded the size of matrix multiply units (MXUs) and increased the clock speed.

v5eは、1.5 GHz で動いていると妄想。MXU を4倍にして、4.7/4 = 1.175倍になり、1.5 x 1.175 = 1.7625 GHz

HBM

2X ICI and High Bandwidth Memory (HBM) capacity and bandwidth

2x なので、v5e の 16GB (8GB x 2) の2倍の 32GB (16GB x 2)
v5e はHBM2eの3.2Gbpsなので、HBM3@6.4Gbps

つまり、HBM3@6.4Gbps な 16GB x 2 = 32GB

ICI

v5e : 1600Gbps (400Gbps x 4)
v5p : 4800Gbps (800Gbps x 6)
v6 : 3200Gbps (800Gbps x 4)

SparseCore

third-generation SparseCore

Compute が 4.7倍で、HBMとICIが2倍なので、内部のSRAMを増やしている可能性があります。

2024 年末にカスタマーにリリース。

www.youtube.com

v5pとの比較

v5p

459 TFLOPS (BF16)
HBM2e x 6 = 95GB (16GB x 6), 2765GB/s
ICI : 4800Gbps (800Gbps x 6)

v6 Trillium

926 TFLOPS (BF16)
HBM3 x 2 = 32GB (16GB x 2), 819GB/s x 2 = 1638GB/s
ICI : 1600Gbps x 2 = 3200Gbps (800Gbps x 4)

FLOPS が2倍以上なので、消費電力は v5p 以上ではないでしょうか？そうなると、空冷ではなく、水冷なのでしょうか？

256 chip = 16 x 16 なので、Rack (4 chip / Board x 8) x 8 = 256 chips

Google Gemini に聞いてみた

色々とGoogle Geminiに聞いてみましたが、

v6 は、水冷と空冷があり、256 台のPod は水冷。空冷だと、30％程度減

Google Gemini君

今回発表した TPU v6 256 チップPod は水冷のようです。
空冷だと、30％程度性能が落ちるようです。
4.7 x 0.7 = 3.29倍。 pic.twitter.com/MIbl3m9H6k
— Vengineerの妄想 (@Vengineer) 2024年5月15日

v6 の ICI は、v5p の ICI と同じ。MarvellのSERDESが付いていて、光モジュールが接続できる

Google Gemini君

v6のICI は、v5p と同じっぽい。 pic.twitter.com/Gi2F1pTAu1
— Vengineerの妄想 (@Vengineer) 2024年5月15日

おわりに

Trillium TPUs make it possible to train the next wave of foundation models faster and serve those models with reduced latency and lower cost.

Trillium TPU は、学習用？でも、256個までなので、32GB x 256 = 8TBメモリまでです。。。

Trillium TPUs are over 67% more energy-efficient than TPU v5e.

これって、同じ消費電力で、5/3 倍の性能ということ？

となると、4.7 / (5/3) = 2.83 倍の消費電力になるの？

Trillium can scale up to 256 TPUs in a single high-bandwidth, low-latency pod. Beyond this pod-level scalability, with multislice technology and Titanium Intelligence Processing Units (IPUs), Trillium TPUs can scale to hundreds of pods, connecting tens of thousands of chips in a building-scale supercomputer interconnected by a multi-petabit-per-second datacenter network.

GPT-4o

めっちゃ凄いです。でも、誰がこのデータを入れたんだ。。。OpenAIの社内文書かな？