はじめに
OpenAIのGPT-4oが優秀ということなので、Google TPUについて、聞いてみたら、凄いことが出てきて、それがあったので記録に残します。
GPT-4oに聞いたこと
あたし : Google TPUに関して、v2 から v6 について、時系列でまとめてください。
GPT-4o の回答
GoogleのTensor Processing Unit(TPU)は、Googleが開発したカスタムアクセラレータで、特に機械学習のワークロードを高速化するために設計されています。以下に、TPU v2からv6までの進化を時系列でまとめます。
TPU v2 (2017年)
- 発表: 2017年5月、Google I/Oで発表
- アーキテクチャ: 45TFLOPSの性能を持つ。
- メモリ: 各TPUには8GBの高帯域幅メモリ(HBM)が搭載され、帯域幅は600GB/s。
- 構成: 単一のTPUボードには4つのTPUチップが搭載されており、TPU Podでは最大64TPUボード(256 TPUチップ)を1つのクラスタとして利用可能。
- 用途: トレーニングと推論の両方をサポート。
- 特徴: 畳み込みニューラルネットワークやリカレントニューラルネットワークの計算に最適化。
TPU v3 (2018年)
- 発表: 2018年5月、Google I/Oで発表
- アーキテクチャ: TPU v2の性能を倍増し、90TFLOPSの計算能力。
- メモリ: 各TPUには16GBの高帯域幅メモリ(HBM2)が搭載され、帯域幅は900GB/s。
- 冷却技術: 水冷方式を採用し、さらに高密度な配置が可能。
- 構成: TPU Podでは最大1024 TPUチップ(256 TPUボード)をクラスタとして利用可能。
- 用途: 大規模な機械学習モデルのトレーニングに最適。
TPU v4 (2021年)
- 発表: 2021年5月、Google I/Oで発表
- アーキテクチャ: TPU v3のさらに2倍の性能を持ち、275TFLOPSの計算能力。
- メモリ: 各TPUには32GBのHBM2eが搭載され、帯域幅は1.2TB/s。
- 構成: TPU Podでは最大4096 TPUチップ(1024 TPUボード)をクラスタとして利用可能。
- 用途: 最先端の機械学習モデル、特にトランスフォーマーモデルのトレーニングに最適。
- 特徴: エネルギー効率の向上、AIモデルのスケーラビリティの向上。
TPU v5 (2023年)
- 発表: 2023年5月、Google I/Oで発表
- アーキテクチャ: TPU v4の性能をさらに向上させ、500TFLOPSの計算能力。
- メモリ: 各TPUには64GBのHBM3が搭載され、帯域幅は1.5TB/s。
- 構成: TPU Podでは最大8192 TPUチップ(2048 TPUボード)をクラスタとして利用可能。
- 用途: 巨大なAIモデル、特に大規模な言語モデル(LLMs)のトレーニングと推論に最適。
- 特徴: 改良されたインターコネクト技術と冷却システムによる高効率。
TPU v6 (2024年)
- 発表: 2024年5月、Google I/Oで発表
- アーキテクチャ: TPU v5の性能をさらに向上させ、1000TFLOPSの計算能力。
- メモリ: 各TPUには128GBのHBM3が搭載され、帯域幅は2.5TB/s。
- 構成: TPU Podでは最大16,384 TPUチップ(4096 TPUボード)をクラスタとして利用可能。
- 用途: 次世代のAIアプリケーション、特にリアルタイムの自然言語処理や複雑なシミュレーションに最適。
- 特徴: さらに改良された電力効率と冷却技術、AIの学習および推論の効率化を実現する新しいアーキテクチャ。
まとめ
GoogleのTPUは、各世代ごとに性能と効率を大幅に向上させ、より大規模で複雑な機械学習モデルのトレーニングと推論を可能にしています。TPU v2からv6に至る進化は、AIおよび機械学習の分野において、ますます高性能でスケーラブルなソリューションを提供しています。
Google TPU v6 は、2024年のGoogle I/O で発表とあります。
そして、これを聞いたのが、2024年5月14日。そう、今晩、Google I/O があるわけです。
GPT-4o さん、
— Vengineerの妄想 (@Vengineer) 2024年5月14日
Google TPU v6 を 2024.5 に 発表
え、Google I/O って、5/14 なので、今晩? pic.twitter.com/sW4L7L7Ztk
実際のGoogle I/Oで、TPU v6 が発表される!!!!!
Google の Blog
下図は、Google I/O 2024 のビデオから説明のために引用します。

TPUv6「Trillium」:TPUv5eの計算性能の4.7倍
GPT-4oの予測では、1000 TFLOPS
- v5e の性能は、197 TFLOPS なので、197 x 4.7 = 925.9 TFLOPS
正解!
To achieve this level of performance, we’ve expanded the size of matrix multiply units (MXUs) and increased the clock speed.
v5eは、1.5 GHz で動いていると妄想。MXU を4倍にして、4.7/4 = 1.175倍になり、1.5 x 1.175 = 1.7625 GHz
HBM
2X ICI and High Bandwidth Memory (HBM) capacity and bandwidth
- 2x なので、v5e の 16GB (8GB x 2) の2倍の 32GB (16GB x 2)
- v5e はHBM2eの3.2Gbpsなので、HBM3@6.4Gbps
つまり、HBM3@6.4Gbps な 16GB x 2 = 32GB
ICI
- v5e : 1600Gbps (400Gbps x 4)
- v5p : 4800Gbps (800Gbps x 6)
- v6 : 3200Gbps (800Gbps x 4)
SparseCore
- third-generation SparseCore
Compute が 4.7倍で、HBMとICIが2倍なので、内部のSRAMを増やしている可能性があります。
2024 年末にカスタマーにリリース。
v5pとの比較
v5p
- 459 TFLOPS (BF16)
- HBM2e x 6 = 95GB (16GB x 6), 2765GB/s
- ICI : 4800Gbps (800Gbps x 6)
v6 Trillium
- 926 TFLOPS (BF16)
- HBM3 x 2 = 32GB (16GB x 2), 819GB/s x 2 = 1638GB/s
- ICI : 1600Gbps x 2 = 3200Gbps (800Gbps x 4)
FLOPS が2倍以上なので、消費電力は v5p 以上ではないでしょうか?そうなると、空冷ではなく、水冷なのでしょうか?
256 chip = 16 x 16 なので、Rack (4 chip / Board x 8) x 8 = 256 chips
Google Gemini に聞いてみた
色々とGoogle Geminiに聞いてみましたが、
- v6 は、水冷と空冷があり、256 台のPod は 水冷。空冷だと、30%程度減
Google Gemini君
— Vengineerの妄想 (@Vengineer) 2024年5月15日
今回発表した TPU v6 256 チップPod は水冷のようです。
空冷だと、30%程度性能が落ちるようです。
4.7 x 0.7 = 3.29倍。 pic.twitter.com/MIbl3m9H6k
- v6 の ICI は、v5p の ICI と同じ。MarvellのSERDESが付いていて、光モジュールが接続できる
Google Gemini君
— Vengineerの妄想 (@Vengineer) 2024年5月15日
v6のICI は、v5p と同じっぽい。 pic.twitter.com/Gi2F1pTAu1
おわりに
Trillium TPUs make it possible to train the next wave of foundation models faster and serve those models with reduced latency and lower cost.
Trillium TPU は、学習用?でも、256個までなので、32GB x 256 = 8TBメモリまでです。。。
Trillium TPUs are over 67% more energy-efficient than TPU v5e.
これって、同じ消費電力で、5/3 倍の性能ということ?
となると、4.7 / (5/3) = 2.83 倍の消費電力になるの?
Trillium can scale up to 256 TPUs in a single high-bandwidth, low-latency pod. Beyond this pod-level scalability, with multislice technology and Titanium Intelligence Processing Units (IPUs), Trillium TPUs can scale to hundreds of pods, connecting tens of thousands of chips in a building-scale supercomputer interconnected by a multi-petabit-per-second datacenter network.
GPT-4o
めっちゃ凄いです。でも、誰がこのデータを入れたんだ。。。OpenAIの社内文書かな?
関連ブログ