Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

GraphcoreのBenchmark (ResNeXt101)

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

今日は、3月3日。ひな祭りですね。我が家では、ハマグリを食べる習慣がありまっす。

 

Graphcoreの新しいブログ

www.graphcore.ai

では、ResNeXt101の推論のベンチマークを行っています。

ベンチマークは、Microsoft Azure cloud で利用可能な、C2 card 1枚 (2 IPUプロセッサ)。

実際には、6枚のCardを使った模様。何故?8枚じゃなかったのだろうか?

レポートは、こちら

 

モデルは、PyTorchで学習したものを ONNX に export して、その ONNX モデルを PopART (Poplar Advanced Runtime)で実行したというもの。

  • latency : timer per batch
  • throughput : number of images per second
  • energy efficiency : number of images per second per Watt

 

latency は、batch size = 2 で、1.36 ms。

(batch size = 2 というのは、1 IPU processor で 1 batch なので、Board上に 2 IPU processor 載っているので、2 batch ということ)

 

throughput は、2 batch size で 1474.16 images/sec、12 batch size で 2526..35 images/sec 

 

energy efficiency は、2 batch size で 6.51 images/second/watt、12 batch size で 9.49 imaes/second/wat

 

何故? ResNeXt101 なんだろうか? MLPerf では、ResNet50 なので、ResNet50だと他のチップと比較されちゃうのかな?