@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった
Google TPU v1を開発したメンバーが
— Vengineer@アマゾンプライムで映画三昧 (@Vengineer) 2020年1月9日
創業したGroqの推論用アクセラレータ(TSP)
その詳細がかなり分かるレポートがアップされています。
読んだら、感想を聞かせてください。 https://t.co/vjkYUOr1Kx
でツイートした、Groqのクラウド用推論チップ:TSPのThe Linley GroupのMicroprocessor Report:GROQ ROCKS NEURAL NETWORKS を読んでみました。
ターゲット周波数は、1.0GHz
最初は、900MHzであったが、
最終的には、1.25GHzは行きそうと
ResNet-50にて、
各レイテンシーは
TSP (batch=1) : 0.05ms
NVIDIA V100 (batch=1) : 0.87ms
NVIDIA V100 (batch=128) : 16ms
Habana Goya (batch=1) : 0.24 ms
バッチサイズは1で0.05 msだと、20,000 枚推論できるんですよね。
ベンチマーク値としては、20400枚
内部構成は、以下の4つのUnit をベースになっています。
- Vector Unit
- Memory Unit
- Switch Unit
- Matrix Unit
具体的には、
Matrix <=> Switch <=> Memory <=> Vector <=> Memory <=> Switch <=> Matrix
の塊を20個(+1個がスペア)になっている。
メモリは内部SRAMだけ。
上の Memory Unit には、5.5MBytes あって、それが40個で220MBytes
バッチサイズが1なので、画像データは1枚のみ。残りはパラメータとモデルの中間データのみ。
220MBに入りきらない場合は、複数枚使ってやるんでしょうかね。
下記の写真は、ここの写真の一部を引用しています。
基板の上に、3つのコネクタがあります。Reportの Figure.3 にも、PCIe and Other I/O ともあります。
追記)、2020.01.18