Intel FPGA Deep Learning - Vengineerの妄想(準備期間)

Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

Intel AI Dayに展示されていたみたい
ミッドレンジFPGAでディープラーニング、NVIDIA「Tesla M4」以上の効率を実現

Arria 10搭載のPCIeボード

Intel Caffe や Intel MKL-DNN で始められると。

じゃあ、具体的には、どうなっているか？

FPGA 2017のプレゼン資料
Can FPGAs beat GPUs in Accelerating Next-Generation Deep Neural Networks?

11頁から44頁で、改善していますと

　DNNs Evolving Rapidly
 
　　Many efforts to improve efficiency 
　　　・Batching
　　　・Reduce bitwidth：BinaryConnect [NIPS’15]、XNORNet 
　　　・Sparse weights 
　　　・Sparse activations：SparseCNN [CVPR’15]、
                            TernaryConnect [ICLR’16]、
　　　　　　　　　　　　　　Spatially SparseCNN [CIFAR-10 winner ‘14]、
                            Pruning [NIPS’15] 
　　　・Compression 
　　　・Shared weights：HashedNets [ICML’15]、DeepComp [ICLR’16]  
　　　・Compact network：SqueezeNet 


　SqueezeNet+ DeepCompression: 
　　　　　　　　　：6-bit, 20-50% sparse AlexNetaccuracy, ~500x smaller (0.5MB) 

　XNORnet(1-bit)　：~2% AlexNet 
　TernaryNet(2-bit, 50% sparse) ：~1% ResNet

FPGAとGPUの比較(45〜62頁)：
　Stratix 10が出れば、GPUに勝てると！
　・DSPたっぷり
　・内部RAMもたっぷり

62頁の開発環境に、「A++」が。。。

73頁から「DNN accelerator template for FPGA used in our studies」と

74頁に

Systolic Array GEMM

とありますがな。

これって、Google TPUと同じじゃん。

82頁：Stratix 10なら、FP32、INT6、INT8で勝てますと！

1ビットでも凄い！が　83〜88頁
Sparse NNは、89〜94頁
Ternary NNは、95〜101頁

非常にまとまってて、いいですよ～。