はじめに
今日は、Hot Chips 34で発表された、Tesla Dojo について、見ていきます。
昨年までは、Anandtech が中継していましたが、今年はありませんでした。
今回は、STH (ServeTheHome)から。
振り返り
このブログでは、3回、取り上げました。
Tesla Dojo AI Tile Microarchitecture
以下の図は、上記の記事から説明のために引用します。
この D1 chip が 5 x 5 で Packaging され、Dojo Training Tile になります。
そして、その Dojo Training Tile を並べて、DOJO System Topology になります。
上記の上の方を拡大したら、
HOST SYSTEM に、DIP というのが 5 個接続していて、その DIP が Dojo Training Tile に接続されています。
DIPについては、Tesla Dojo Custom AI Supercomputer at HC34 で書かれています。
DIPは、HOST SYSTEMに接続する PCIe Gen4 x16 と HBM (32GB) を持っていて、D1 Chip と接続します。
Dojo Training Tile とは、5つの DIP と接続しています。
Dojo Training Tile の1辺は、1辺に10個のコネクタでかつ、5個の D1 Chip になっています。D1 Chip は 576 I/O なので、1辺 144 I/O。1つのコネクタは、72 I/O になるわかですね。DIP の上にあるコネクタがそれですね。
V1 Dojo Interface Processor
ボード全体の写真。DIP Chip が2個搭載されている。
真ん中にあるのは、PCIe Switch (Gen4 x16)かな?
左下にあるのが Ethernet なのかな? Ethernet は 1ポートしかないんだね。となると、2つのチップの内、どちらからか出ているんでしょうね。 (Chipの横の空きスペースが 50GB/s : 400GbEのポートなんですかね)
DIP Chip には、下記の機能が搭載されています。
- PCIe Gen4 x16
- HBM : 32GB (16GB x 2)
- 50 GB/s TTP over Ethernet (TTPoE)
下図は、テスラのAIトレーニング・マシン「Dojo」が人間の未来を大きく変える から説明のために引用します。Youtubeにビデオは、ここ。
Dojo Training Tile には、1辺に 10 個のコネクタが付いています。上記の V1 Dojo Interface Processor には、同じようなコネクタが2個付いています。
下図には、
- 5 DIP Cards Provide Max Bandwidth
とあるので、上記の ボードを5枚、10個のコネクタを接続することで最大性能が出るようですね。
System全体
DIPは、Ethernet で Ethernet Switch と接続しています
Model Execution は下記のようになっています。
- Tenstorrent
- Cerebras CS-1/2
と基本的にはおなじですね。
入力データの流れ
バッチに対しては、こんな感じ
おわりに
Tesla Dojo の全貌がわかりました。