HotChips32を振り返る：Baidu Kunlun AI Processor

HotChips32を振り返る、5日目は、Baidu Kunlun AI Processor。

Baidu は、XPU。FPGAでの実装からかなり長い。Kunlunでは、XPU v2。FPGAでの実装、XPU v1 (Hotchips 2017)では、DDR 4、今回はHBM2 x 2

PCIe x8なんだ。それから、推論チップなのに、HBM積んでいる。

SRAMが16MBx2=32MBと少な目だからなのか？

いや、XPU v1 はFPGAに実装したので、FPGAではそんなにSRAM積めないので、外部DRAMを使うアーキテクチャになっちゃったのかな。

XPU cluster x4 + XPU SDNN (Software defined neural network engine) x 4 + 16MB on-chip memory + HBM 8GB (256GB/s) x 1
XPU-SDNN : tensor & vector
XPU-Cluster : scalr & vector , 16 tiny cores

XPU v1 (コア数は32)では、May tiny cores の部分が XPU-Clusterで、Customized logicで tensor and vector を実行していたのが、XPU-SDNNになった感じ。

XPU v1 では、Xilinx VUP9で256コア搭載。

XPU-Cluster (32コア) x 8 か。

Framework対応

最初が、Paddle Paddle、当たり前だけど。

micro benchmark : NVIDIA の P4/T4　と比べている。T4の3倍ぐらい。

あら、AlibabaのHanguang 800 NPUと同じぐらい。。。