Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

HotChips32を振り返る:Alibaba Hanguang 800 NPU

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

HotChips32を振り返る、4日目は、Alibaba Hanguang 800 NPU

  • 825 INT8 TOPS
  • 700 MHz
  • 280 W
  • 709 mm^2
  • TSMC 12nm

7nm にすれば、もっとパフォーマンス上がりそう。

昨年(2019年)の発表後、詳細は公開されていなかった気がする。

このチップは、A Bussiness-Driven Design。Google TPUと同じ。

TCO Efficient

  • For data center inference acceleration
  • High thoughput, low latency, power efficient
  • High effective TOPs

CNN Optimized

  • Convolution-efficient architecture
  • As well as GEMM acceleration

Domain Prorammable

推論用。で、Optimized for CV Tasks ということ。SRAM(192MB)のみ。

 

「Top Level Diagram」

Top Level

  • 4 Cores w/ a ring bus (200 GB/s)
  • Command Processor (CP) 各コアへ供給
  • PCIE gen4 x16 (w DMA)

Each Core

  • Tensor Engine (TE) : Weight + Activation Stationary, Fused OPs
  • Pooling ENgine (PE) : POOL UNIT, INTP UNIT, Scale/Bias UNIT
  • Memory Engine (ME)

SRAM-Only

  • 192 MB Local Memory (LM) : 48MB / core, 1-R/W SRAM
  • Distributed shared
  • No DDR

Compressed and Quantized Storage/Processing

  • Compressed Model
  • Quantized computation and storage
  • Vectoru Unit w/FP-24 (1 sign, 8 exp, 15 man)

Workflow at Command Level

  • Host CPUは、CPと通信する

Workflow at Instruction Level

  • Domain-specific instruction set
  • Synchronization among 3 engines

Quantization Method

  • Post-training Quantization (Pruning is optional)
  • Static quantization at compile time
  • Clip out-of-range post-rounding values
  • Symmetric quantization
  • Weights : per-channel
  • Activations : per-tensor

Comparingwith Latest GPUs (ResNet-50 v1.5 Inference)

T4の17倍/3倍、V100の10倍/10倍、A100 の 3倍/3倍以上

 

Hanguang 800 NPUは、Alibaba Could で利用可能

ということで、中国国内での利用が多くなると思いますが、それ以外ではどうなるのかな。

Cloud用推論チップって、需要が難しい。自社でサービスを持っているところならいいかもしれないが、外販するのはかなり難しいと思う。

外販しているもので、利用されているのって、どのくらいあるのだろうか?