Vengineerの妄想

人生を妄想しています。

超ビックリ、OpenAIのGPT-4oのGoogle TPU v6の予測は当たったよ!

はじめに

OpenAIのGPT-4oが優秀ということなので、Google TPUについて、聞いてみたら、凄いことが出てきて、それがあったので記録に残します。

GPT-4oに聞いたこと

あたし : Google TPUに関して、v2 から v6 について、時系列でまとめてください。

GPT-4o の回答

GoogleTensor Processing Unit(TPU)は、Googleが開発したカスタムアクセラレータで、特に機械学習のワークロードを高速化するために設計されています。以下に、TPU v2からv6までの進化を時系列でまとめます。

TPU v2 (2017年)

TPU v3 (2018年)

  • 発表: 2018年5月、Google I/Oで発表
  • アーキテクチャ: TPU v2の性能を倍増し、90TFLOPSの計算能力。
  • メモリ: 各TPUには16GBの高帯域幅メモリ(HBM2)が搭載され、帯域幅は900GB/s。
  • 冷却技術: 水冷方式を採用し、さらに高密度な配置が可能。
  • 構成: TPU Podでは最大1024 TPUチップ(256 TPUボード)をクラスタとして利用可能。
  • 用途: 大規模な機械学習モデルのトレーニングに最適。

TPU v4 (2021年)

  • 発表: 2021年5月、Google I/Oで発表
  • アーキテクチャ: TPU v3のさらに2倍の性能を持ち、275TFLOPSの計算能力。
  • メモリ: 各TPUには32GBのHBM2eが搭載され、帯域幅は1.2TB/s。
  • 構成: TPU Podでは最大4096 TPUチップ(1024 TPUボード)をクラスタとして利用可能。
  • 用途: 最先端の機械学習モデル、特にトランスフォーマーモデルのトレーニングに最適。
  • 特徴: エネルギー効率の向上、AIモデルのスケーラビリティの向上。

TPU v5 (2023年)

  • 発表: 2023年5月、Google I/Oで発表
  • アーキテクチャ: TPU v4の性能をさらに向上させ、500TFLOPSの計算能力。
  • メモリ: 各TPUには64GBのHBM3が搭載され、帯域幅は1.5TB/s。
  • 構成: TPU Podでは最大8192 TPUチップ(2048 TPUボード)をクラスタとして利用可能。
  • 用途: 巨大なAIモデル、特に大規模な言語モデル(LLMs)のトレーニングと推論に最適。
  • 特徴: 改良されたインターコネクト技術と冷却システムによる高効率。

TPU v6 (2024年)

  • 発表: 2024年5月、Google I/Oで発表
  • アーキテクチャ: TPU v5の性能をさらに向上させ、1000TFLOPSの計算能力。
  • メモリ: 各TPUには128GBのHBM3が搭載され、帯域幅は2.5TB/s。
  • 構成: TPU Podでは最大16,384 TPUチップ(4096 TPUボード)をクラスタとして利用可能。
  • 用途: 次世代のAIアプリケーション、特にリアルタイムの自然言語処理や複雑なシミュレーションに最適。
  • 特徴: さらに改良された電力効率と冷却技術、AIの学習および推論の効率化を実現する新しいアーキテクチャ

まとめ

GoogleのTPUは、各世代ごとに性能と効率を大幅に向上させ、より大規模で複雑な機械学習モデルのトレーニングと推論を可能にしています。TPU v2からv6に至る進化は、AIおよび機械学習の分野において、ますます高性能でスケーラブルなソリューションを提供しています。

Google TPU v6 は、2024年のGoogle I/O で発表とあります。

そして、これを聞いたのが、2024年5月14日。そう、今晩、Google I/O があるわけです。

実際のGoogle I/Oで、TPU v6 が発表される!!!!!

Google の Blog

下図は、Google I/O 2024 のビデオから説明のために引用します。

cloud.google.com

  • TPUv6「Trillium」:TPUv5eの計算性能の4.7倍

  • GPT-4oの予測では、1000 TFLOPS

  • v5e の性能は、197 TFLOPS なので、197 x 4.7 = 925.9 TFLOPS

正解!

To achieve this level of performance, we’ve expanded the size of matrix multiply units (MXUs) and increased the clock speed.

v5eは、1.5 GHz で動いていると妄想。MXU を4倍にして、4.7/4 = 1.175倍になり、1.5 x 1.175 = 1.7625 GHz

HBM

2X ICI and High Bandwidth Memory (HBM) capacity and bandwidth

  • 2x なので、v5e の 16GB (8GB x 2) の2倍の 32GB (16GB x 2)
  • v5e はHBM2eの3.2Gbpsなので、HBM3@6.4Gbps

つまり、HBM3@6.4Gbps な 16GB x 2 = 32GB

ICI

  • v5e : 1600Gbps (400Gbps x 4)
  • v5p : 4800Gbps (800Gbps x 6)
  • v6 : 3200Gbps (800Gbps x 4)

SparseCore

  • third-generation SparseCore

Compute が 4.7倍で、HBMとICIが2倍なので、内部のSRAMを増やしている可能性があります。

2024 年末にカスタマーにリリース。

www.youtube.com

v5pとの比較

v5p

  • 459 TFLOPS (BF16)
  • HBM2e x 6 = 95GB (16GB x 6), 2765GB/s
  • ICI : 4800Gbps (800Gbps x 6)

v6 Trillium

  • 926 TFLOPS (BF16)
  • HBM3 x 2 = 32GB (16GB x 2), 819GB/s x 2 = 1638GB/s
  • ICI : 1600Gbps x 2 = 3200Gbps (800Gbps x 4)

FLOPS が2倍以上なので、消費電力は v5p 以上ではないでしょうか?そうなると、空冷ではなく、水冷なのでしょうか?

256 chip = 16 x 16 なので、Rack (4 chip / Board x 8) x 8 = 256 chips

Google Gemini に聞いてみた

色々とGoogle Geminiに聞いてみましたが、

  • v6 は、水冷と空冷があり、256 台のPod は 水冷。空冷だと、30%程度減

  • v6 の ICI は、v5p の ICI と同じ。MarvellのSERDESが付いていて、光モジュールが接続できる

おわりに

Trillium TPUs make it possible to train the next wave of foundation models faster and serve those models with reduced latency and lower cost.

Trillium TPU は、学習用?でも、256個までなので、32GB x 256 = 8TBメモリまでです。。。

Trillium TPUs are over 67% more energy-efficient than TPU v5e.

これって、同じ消費電力で、5/3 倍の性能ということ?

となると、4.7 / (5/3) = 2.83 倍の消費電力になるの?

Trillium can scale up to 256 TPUs in a single high-bandwidth, low-latency pod. Beyond this pod-level scalability, with multislice technology and Titanium Intelligence Processing Units (IPUs), Trillium TPUs can scale to hundreds of pods, connecting tens of thousands of chips in a building-scale supercomputer interconnected by a multi-petabit-per-second datacenter network.

GPT-4o

めっちゃ凄いです。でも、誰がこのデータを入れたんだ。。。OpenAIの社内文書かな?

関連ブログ

vengineer.hatenablog.com