Intel Nervana NNP-Iの実力とは？ - Vengineerの妄想(準備期間)

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

www.crn.com

にNVIDIA GPU T4とIntel Nervana NNP-Iの性能差が載っていますね。

引用しますね。

From a competitive standpoint, the chipmaker said a 1U server rack containing 32 of its NNP-I chips provide nearly four times the compute density of a 4U rack with 20 Nvidia T4 inference GPUs. In a live demo at the summit, the NNP-I rack was processing 74,432 images per second per rack unit while the Nvidia T4 rack was processing 20,255 images per second per rack unit.

NVIDIAの推論専用のGPUである T4を4U ラックに20台収めたものと

Intel Nervana NNP-I を 1U サーバーに32枚収めたものを比べて、

処理能力が 20,255 画像 vs 74432 画像となり、3.7倍ぐらい速いと。。

NVIDIAのT4のローンチは、2018年9月なので、1年2か月前のマシンと比べるのもなんだけど、ね。

jp.techcrunch.com

クラウド用の推論マシンはこれからも需要があると思うのでどんどん出てくると思うけど、結局はエコシステムがあるかどうか。NVIDIAであれば、NVIDIAのGPUで学習して、学習したモデルをTensorRTで最適化すればかなり楽ちんだけど、Intel Nervana NNP-Iの場合は何を使って学習するのだろうか。。。NVIDIAのGPUなのか？それとも、Intel Nervana NNP-Tなのか？

Intel Nervana NNP-Iの対応フレームワークは、Glowなので、Glowを使って学習したモデルを使うのだろうか？

え、Glowは推論用だと思っていた。。。いやいや学習用の機能も入っていますよ。ただし、学習用として使うユーザーがどのくらい居るかは別として。。。

今、github の glow の NNP-I のコードを見たら、Trace機能が追加されていました。

https://github.com/pytorch/glow/blob/master/lib/Backends/NNPI/NNPITracing.cpp

DMA、INFER、COPY、MARK、CLOCK_SYNCなどがトレースできるようです。

なお、昨日に紹介した WikiChipにも Intel NNP-I の情報がアップされています。
fuse.wikichip.org