@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった
Groqはクラウド用推論チップです。このブログでも何度か取り上げました。
The Linley Spring Processor Conferenceの講演ビデオ
「Groq Rocks Neural Networks: The Architecture Story」
と
ISCA2020で発表される、Groqの論文
「Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads」
を紹介しますね。
講演ビデオは、5月7日に公開されていて、一回見たのですがあんまりよくわからなかったです。しかしながら、ISCA2020の論文を読んだら、かなり詳しく書いてあり、その後ビデオを見たら、言っていることがわかりました。
Groqは、Google TPU v1 を開発したメンバーが創業した会社ですので、推論チップを作るというのは納得したというのはこのブログでも書きました。
GroqのTSPのResnet50の推論性能は、24000 images/sec ということですが、バッチサイズ1で47us で Resnet50 が処理できるので、24000 images/sec ということでした。
チップには外部メモリが付いていなくて、内蔵SRAMが全部で220MBもあります。
PCIe とは、Gen4 x16 で接続し、チップ間接続用に x4 のリンクが 16 個もあります。
PCIe Board には、3つのコネクタが出ていて、このコネクタを使ってボード間を接続しているようです。
講演ビデオの ここ には、Groq Software Development Stackの図があって、学習用モデルとしては、TensorFlowとONNXのモデルをサポートしているようです。
また、カスタムコードも利用できるようです。
このブログでの Grqp の記事