Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Wave Computing


月曜日のDeep Learning関連のレポートにも出てきた Wave Computing が


と。


これによると、Dataflow Processing Units (DPUs)というもの。

 WaveFlow SDK

  WaveFlow Agent Library
  WaveFlow Execution Engine
  Wave Machine Learning Framework Interface

このブリーフによると、

 ・チップ( Wave DPU )には、16,000個のPEを搭載、16チップ搭載可能
 ・4台のコンピュータ構成まで可能なので、1,000,000 PE
 ・メモリは、HMC 128GB

これは、学習用の道具みたい。


Samsung AI Summit 2017
プレゼン資料にもっと詳しい資料がありますね。
ビデオ(クリックすると、.movがダウンロードされます)もあります。。


Page.6 :
 ・16ff CMOS
 ・PCIe Gen3 16-Lane
 ・16K Processors (8192 DPU Arthmetic Units)
 ・16MB Distributed Data Memory
 ・8MB Distributed Instruction Memory
 ・270 GB/s Peak Memory Bandwidth
 ・2048 Outstanding Memory Requests
 ・4 Hybrid Memory Cube Interface
 ・2 DDR4 Interface

それから内部ブロック図もありますよ。

Page.7-8 :
PEはdMEM+iMEMで、4xPE x4 + 8xDPU Arith Unitで1クラスタ(16 PE)
8-16クラスタ単位でAXIバスに接続されている。
AXIが階層構造になって、メモリが接続されているAXI4 NOCに接続されている。
メモリはHMCとDDR4。。。

Page.9 : DPUボードには、4個のDPUとSwitch、ARM Quad Core + DDR + PCIe があると。

Page.12 :
Proto Buf (TensorFLow/Caffe CNTK Frontend)からSession Manager =>
WaveFlow Agent Library => WaeFLow Execution Engine

いやー、面白いわ!

おまけ)

開発にはSynopsysのZebu Server-3を使ったそうな。


追記)、2017.05.13
Overcoming the Memory System Challenge in Dataflow Processing, Wave Computing & SONICS, ML DevCon, Apr 27 2017
内部バスには、Sonicsのものを使っているようです。

引用
 SonicsGN ®Network on Chip (NoC) Performance
   • Up to 2GHz speed (14nm) Concurrency
   • Up to 16 Virtual Channels / link
   • Up to 8-way IMT Layout-friendly router-based fabric
   • Unlimited clock/power domains