@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった
HotChips32を振り返る、5日目は、Baidu Kunlun AI Processor。
Baidu は、XPU。FPGAでの実装からかなり長い。Kunlunでは、XPU v2。FPGAでの実装、XPU v1 (Hotchips 2017)では、DDR 4、今回はHBM2 x 2
2019年12月末に、Kunlun の開発を完了したと発表。今回は詳細を
- Samsung 14nm、2.5D PKG
- 2 x HBM 8GB
- PCIe 4.0 x8
- 256 Tops
- 150W
PCIe x8なんだ。それから、推論チップなのに、HBM積んでいる。
SRAMが16MBx2=32MBと少な目だからなのか?
いや、XPU v1 はFPGAに実装したので、FPGAではそんなにSRAM積めないので、外部DRAMを使うアーキテクチャになっちゃったのかな。
- XPU cluster x4 + XPU SDNN (Software defined neural network engine) x 4 + 16MB on-chip memory + HBM 8GB (256GB/s) x 1
- XPU-SDNN : tensor & vector
- XPU-Cluster : scalr & vector , 16 tiny cores
XPU v1 (コア数は32)では、May tiny cores の部分が XPU-Clusterで、Customized logicで tensor and vector を実行していたのが、XPU-SDNNになった感じ。
XPU v1 では、Xilinx VUP9で256コア搭載。
XPU-Cluster (32コア) x 8 か。
Framework対応
- Paddle Paddle, TensorFlow, PyTorch
最初が、Paddle Paddle、当たり前だけど。
- XPU C/C++ programming language
- Deep learning library
micro benchmark : NVIDIA の P4/T4 と比べている。T4の3倍ぐらい。
あら、AlibabaのHanguang 800 NPUと同じぐらい。。。