Vengineerの妄想

人生を妄想しています。

HotChips32を振り返る:Baidu Kunlun AI Processor

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

HotChips32を振り返る、5日目は、Baidu Kunlun AI Processor

Baidu は、XPU。FPGAでの実装からかなり長い。Kunlunでは、XPU v2。FPGAでの実装、XPU v1 (Hotchips 2017)では、DDR 4、今回はHBM2 x 2

 

2019年12月末に、Kunlun の開発を完了したと発表。今回は詳細を

  • Samsung 14nm、2.5D PKG
  • 2 x HBM 8GB
  • PCIe 4.0 x8
  • 256 Tops
  • 150W 

PCIe x8なんだ。それから、推論チップなのに、HBM積んでいる。

SRAMが16MBx2=32MBと少な目だからなのか?

いや、XPU v1 はFPGAに実装したので、FPGAではそんなにSRAM積めないので、外部DRAMを使うアーキテクチャになっちゃったのかな。

  • XPU cluster x4 + XPU SDNN (Software defined neural network engine) x 4 + 16MB on-chip memory + HBM 8GB (256GB/s) x 1
  • XPU-SDNN : tensor & vector
  • XPU-Cluster : scalr & vector , 16 tiny cores

XPU v1 (コア数は32)では、May tiny cores の部分が XPU-Clusterで、Customized logicで tensor and vector を実行していたのが、XPU-SDNNになった感じ。

XPU v1 では、Xilinx VUP9で256コア搭載。

XPU-Cluster (32コア) x 8 か。

Framework対応

  • Paddle Paddle, TensorFlow, PyTorch

最初が、Paddle Paddle、当たり前だけど。

micro benchmark : NVIDIA の P4/T4 と比べている。T4の3倍ぐらい。

あら、AlibabaのHanguang 800 NPUと同じぐらい。。。