はじめに

先週の8月19日(日本時間では、8月20日の9時)から行われた tesla AI Day。

今日のブログは、そこで発表があった Dojo D1 Chip および D1 Chipをベースとしてシステムについて考えてみました。

Youtube で Live ストリーミングされた Tesla AI Day

Youtubeにはアーカイブが残っています。1:45:30ぐらいから、Dojoの説明が始まります。

www.youtube.com

Dojo のプレゼンテータは、Ganesh Venkataramanan さんで、Dojo ProjectのLeadのようです。2016年3月に、Director Autopilot Hardware として、Teslaに入手し、2018年12月に、Lead of Project Dojo with responsibilities of Silicon, Systems and Firmware/Software ということで Dojo を率いることになり、2021年の夏(8月19日)、Dojo の実体を明らかにすることになりました。

Dojo D1 chip と D1 chip を使ったシステムの説明

プレゼンテーションは、1:45:30 ～ 2:05 までなので約20分見ればわかります。

といってはお終いなので、Twitter にて、「Tesla Dojo Chip」で検索してみました。

ざーと見た感じだと、semianalysis の下記の記事：Tesla Dojo – Unique Packaging and Chip Design Allow An Order Magnitude Advantage Over Competing AI Hardware

semianalysis.com

が一番良かったです。

この記事では、Tesla Dojo Chip (D1 Chip) の説明だけでなく、WSEのCerebras や現在学習用チップ(Wohmhole)をベースとしたシステムを開発中の Tenstorrent との比較を行っています。 CerebrasのWSEとは見た目も似ているので比較するのはすぐに思いつくのですが、Tenstorrentについても説明しているのは他の記事にはない点です。といっても、あたしは見た目は Cerebras の WSE、システム構成は Tenstorrent (Wohmhome) と思っています。

Cerebras WSE との違い

見た目には Cerebras WSE と非常に構成になった Tesla Dojo 。Cerebras WSE はプロダクトとして売らなくてはいけないので Tesla Dojo のような巨大なシステムを組むような構成にはなっていません。1つのシステムでできるだけ大きなモデルを実行する。一方、Tesla Dojo は大きなモデルを実行するにはどうすればいいのか？を考えて、かつ、自社利用が目的で計算リソースがあまればサービスとして貸し出す。この点が大きな違いだったのではと思います。CerebrasのWSEも物理的なプロダクトとして売り出すのではなく、サービスの道具として開発していれば、Tesla Dojo のような構成になったのかもしれません。

Tenstorrent の Wohmhole との違い

Tenstorrent の Wohmhole と Tesla Dojo D1 Chip は、基本的な同じです。違いは、チップ間の接続です。Wohmholeは、上下左右の4辺に対して、100GbE x 4 が出ていますが、Tesla Dojo D1 Chipは、4辺で576でかつ112Gbpsです。つまり、100 x 16 vs 112 x 576 です。40倍以上も違いです。この違いが非常に大きいです。

実はもう一つ、Graphcore M2000 と似たシステム

プレゼンテーションではちょこっとしか触れられていませんが、Dojo Interface Processorというものが Host System (PCIe Gen4で接続) と D1 chip (112Gbps SERDESで接続)と接続し、この他にメモリとネットワークが接続するあります。

実はこのようなシステムとしては、Graphcore の M2000 があります。M2000ではホストとの接続は 100GbEですが、100GbE は Gateway-SoC (実態は、Xilinx Zynq UltraScale+ MPSoC)とPCIe Gen3でMellanoxのボードと接続しています。4つのチップ(GC2)とはPCIe Gen3 x16で接続しています。Gateway-SoCには、Stream Memoryという名のDRAMが最大448GB(実態は256GB x2 のDDR4メモリ)も接続しています。GC2間は独自のインターコネクト(実態はPCIe Gen4 x16だと思う)にて接続しています。PCIe Gen4 x16 だと、16Gbps x 16 = 256 Gbps です。GC2には5組のインターコネクトで3つのチップと接続していますので、トータルとして、1280 Gbps なので、TensTorrentのWohmhole の 1600Gbpsよる小さいです

説明のために、Product Brief の図を引用します。

f:id:Vengineer:20210822101800p:plain