Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Snowflake CNN Accelerator




Tourch7のモデルを利用するみたい。

コンパイラでは、Torch7モデルから、
 ・model structure parsing
 ・CNN workload breakdown
 ・loop rearrangement for memory bandwidth optimizations and memory access balanciing
をやっているようです。

Snowflake 上で AlexNet と ResNet18 推論が動く。
実装は、Xilinx’s Zynq XC7Z045 FPGAに256PU搭載で、250MHzで動いている。。。(250MHzで動かすとは、凄いぞ)

AlexNet で、93.6 frames/s & 1.2 GB/s of off-chip memory bandwidth
ResNet18 では、21.4 frames/s and 2.2 GB/s

消費電力は、5W


Snowflakeは、最大3つのクラスタ接続できるので、768MACになると。。


うーん、XilinxDeep Learning用に、
Zynq MPSoCの一番大きいものが載ったSo