@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった
今日は、3月3日。ひな祭りですね。我が家では、ハマグリを食べる習慣がありまっす。
Graphcoreの新しいブログ
では、ResNeXt101の推論のベンチマークを行っています。
ベンチマークは、Microsoft Azure cloud で利用可能な、C2 card 1枚 (2 IPUプロセッサ)。
実際には、6枚のCardを使った模様。何故?8枚じゃなかったのだろうか?
レポートは、こちら。
モデルは、PyTorchで学習したものを ONNX に export して、その ONNX モデルを PopART (Poplar Advanced Runtime)で実行したというもの。
- latency : timer per batch
- throughput : number of images per second
- energy efficiency : number of images per second per Watt
latency は、batch size = 2 で、1.36 ms。
(batch size = 2 というのは、1 IPU processor で 1 batch なので、Board上に 2 IPU processor 載っているので、2 batch ということ)
throughput は、2 batch size で 1474.16 images/sec、12 batch size で 2526..35 images/sec
energy efficiency は、2 batch size で 6.51 images/second/watt、12 batch size で 9.49 imaes/second/wat
何故? ResNeXt101 なんだろうか? MLPerf では、ResNet50 なので、ResNet50だと他のチップと比較されちゃうのかな?