Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

Groqのクラウド用推論チップ:TSPのちょっと詳細

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

 でツイートした、Groqのクラウド用推論チップ:TSPのThe Linley GroupのMicroprocessor Report:GROQ ROCKS NEURAL NETWORKS を読んでみました。

 

ターゲット周波数は、1.0GHz
最初は、900MHzであったが、
最終的には、1.25GHzは行きそうと

ResNet-50にて、
レイテンシー
TSP (batch=1) : 0.05ms
NVIDIA V100 (batch=1) : 0.87ms
NVIDIA V100 (batch=128) : 16ms
Habana Goya (batch=1) : 0.24 ms

バッチサイズは1で0.05 msだと、20,000 枚推論できるんですよね。

ベンチマーク値としては、20400枚

 

内部構成は、以下の4つのUnit をベースになっています。

  • Vector Unit
  • Memory Unit
  • Switch Unit
  • Matrix Unit

具体的には、

Matrix <=> Switch <=> Memory <=> Vector <=> Memory <=> Switch <=> Matrix

の塊を20個(+1個がスペア)になっている。

 

メモリは内部SRAMだけ。

上の Memory Unit には、5.5MBytes あって、それが40個で220MBytes

バッチサイズが1なので、画像データは1枚のみ。残りはパラメータとモデルの中間データのみ。

220MBに入りきらない場合は、複数枚使ってやるんでしょうかね。

下記の写真は、ここの写真の一部を引用しています。

f:id:Vengineer:20200111085401j:plain

Groqの基板の上部にある3つのコネクタ

基板の上に、3つのコネクタがあります。Reportの Figure.3 にも、PCIe and Other I/O ともあります。

 追記)、2020.01.18

www.hpcwire.com