9頁目からの「MAP ARCHITECTURE TO ALGORITHM」って、面白い。
非常に分かりやすいです。。。
Arria 10のDSPを4個使って、4x4の演算をする。
PEをのOpenCLの実装もちらっと。
PEを4x4で、Systolic Arrayを実装。。。
PE間は基本的に、OpenCL 2.0のpipe機能で接続していると。。。
30頁目からは、「ADVANTAGEOUS OF ON-DIE MEMORY」では、
内部メモリのM20Kを使って、PEへのデータ供給をする。
内部メモリのM20Kを使って、PEへのデータ供給をする。
37頁目からは、「CONVOLUTIONAL NEURAL NETS ON FPGAS」
41頁目が、Deep Learning Accelerator on FPGAの図。
コレだけ見ても良くわかんなかったが、その前までのPEの実装をよ~く見ていたら、
なんとなく分かってきたような気がした。。。
41頁目が、Deep Learning Accelerator on FPGAの図。
コレだけ見ても良くわかんなかったが、その前までのPEの実装をよ~く見ていたら、
なんとなく分かってきたような気がした。。。
このスライドだけじゃ、よくわからなかったが、Google君にきいたら、、、
An OpenCL(TM) Deep Learning Accelerator on Arria 10
にもっと詳しく書いてありました。。。
An OpenCL(TM) Deep Learning Accelerator on Arria 10
にもっと詳しく書いてありました。。。
特に「Winogard Transform」の部分。。。。
ReLUとStream Bufferのところに、あるんですよ、Winograd Trans.というキーワード。。。