Vengineerの妄想

人生を妄想しています。

Hot Chips 34 で発表された Tesla Dojo

はじめに

今日は、Hot Chips 34で発表された、Tesla Dojo について、見ていきます。

昨年までは、Anandtech が中継していましたが、今年はありませんでした。

今回は、STH (ServeTheHome)から。

振り返り

このブログでは、3回、取り上げました。

vengineer.hatenablog.com

vengineer.hatenablog.com

vengineer.hatenablog.com

Tesla Dojo AI Tile Microarchitecture

www.servethehome.com

以下の図は、上記の記事から説明のために引用します。

  • 354 DOJO processing nodes on die (2D array)
  • 440MB SRAM
  • 576 bidirectional channels

この D1 chip が 5 x 5 で Packaging され、Dojo Training Tile になります。

そして、その Dojo Training Tile を並べて、DOJO System Topology になります。

上記の上の方を拡大したら、

HOST SYSTEM に、DIP というのが 5 個接続していて、その DIPDojo Training Tile に接続されています。

DIPについては、Tesla Dojo Custom AI Supercomputer at HC34 で書かれています。

DIPは、HOST SYSTEMに接続する PCIe Gen4 x16 と HBM (32GB) を持っていて、D1 Chip と接続します。

Dojo Training Tile とは、5つの DIP と接続しています。

Dojo Training Tile の1辺は、1辺に10個のコネクタでかつ、5個の D1 Chip になっています。D1 Chip は 576 I/O なので、1辺 144 I/O。1つのコネクタは、72 I/O になるわかですね。DIP の上にあるコネクタがそれですね。

V1 Dojo Interface Processor

ボード全体の写真。DIP Chip が2個搭載されている。

真ん中にあるのは、PCIe Switch (Gen4 x16)かな?

左下にあるのが Ethernet なのかな? Ethernet は 1ポートしかないんだね。となると、2つのチップの内、どちらからか出ているんでしょうね。 (Chipの横の空きスペースが 50GB/s : 400GbEのポートなんですかね)

DIP Chip には、下記の機能が搭載されています。

  • PCIe Gen4 x16
  • HBM : 32GB (16GB x 2)
  • 50 GB/s TTP over Ethernet (TTPoE)

下図は、テスラのAIトレーニング・マシン「Dojo」が人間の未来を大きく変える から説明のために引用します。Youtubeにビデオは、ここ

Dojo Training Tile には、1辺に 10 個のコネクタが付いています。上記の V1 Dojo Interface Processor には、同じようなコネクタが2個付いています。

下図には、

  • 5 DIP Cards Provide Max Bandwidth

とあるので、上記の ボードを5枚、10個のコネクタを接続することで最大性能が出るようですね。

System全体

DIPは、EthernetEthernet Switch と接続しています

Model Execution は下記のようになっています。

  • Tenstorrent
  • Cerebras CS-1/2

と基本的にはおなじですね。

入力データの流れ

バッチに対しては、こんな感じ

おわりに

Tesla Dojo の全貌がわかりました。

  • HOST SYSTEM とは、DIP経由で接続 (PCIe Gen4 x16 を5組)、これがいっぱい
  • DIPには、Ethernetが付いていて、Ethernet Switch 間でデータ転送を行う