Groqの推論性能 - Vengineerの戯言

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

Groqが Linley Group Conference で発表した資料と思うんだけど、このツイートの図。

Graphcore C2 IPU seems the last in the chip for inference race, as presented by Groq. pic.twitter.com/OEEqi1YBFl
— Jack Harvard (@jack_harvard) 2020年4月18日

Groqの推論性能がバッチサイズ1でめちゃくちゃいいのはいいんですが、

Graphcoreの推論性能がめちゃくちゃ悪いのが気になります。

で、調べてみたら、Groqのサイトに新しいレポートがあがっていました。

The Challenge of Batch Size 1: Groq Adds Responsiveness to Inference Performance

ちょっと気になるのが、ResNet-50のバージョンが v1.5 と v2 があるんですよ。v1.5 は分かるのですが、v2 って❓

あー、ここにありました。v2 が

このレポートによると、800ノードのNVIDIA V100を使っていろいろなケースの推論するのを Groq では193ノードに置き換えられるというもの。

P.S

昔、Groqという会社は、GoogleでTPU v1を開発したメンバーが作ったというのを知った時、てっきり学習用チップを作るのだと思っていましたが、TPU v1は推論チップなので、Groqも推論チップなんだよね。勘違いしていました。

下記のスライドの25頁目

TensorFlow XLA とハードウェア from Mr. Vengineer