GraphcoreのBenchmark (ResNeXt101)

今日は、3月3日。ひな祭りですね。我が家では、ハマグリを食べる習慣がありまっす。

Graphcoreの新しいブログ

では、ResNeXt101の推論のベンチマークを行っています。

ベンチマークは、Microsoft Azure cloud で利用可能な、C2 card 1枚 (2 IPUプロセッサ)。

実際には、6枚のCardを使った模様。何故？8枚じゃなかったのだろうか？

レポートは、こちら。

モデルは、PyTorchで学習したものを ONNX に export して、その ONNX モデルを PopART (Poplar Advanced Runtime)で実行したというもの。

latency は、batch size = 2 で、1.36 ms。

(batch size = 2 というのは、1 IPU processor で 1 batch なので、Board上に 2 IPU processor 載っているので、2 batch ということ)

throughput は、2 batch size で 1474.16 images/sec、12 batch size で 2526..35 images/sec

energy efficiency は、2 batch size で 6.51 images/second/watt、12 batch size で 9.49 imaes/second/wat

何故？ ResNeXt101 なんだろうか？ MLPerf では、ResNet50 なので、ResNet50だと他のチップと比較されちゃうのかな？