@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった
HotChips32を振り返る、4日目は、Alibaba Hanguang 800 NPU
- 825 INT8 TOPS
- 700 MHz
- 280 W
- 709 mm^2
- TSMC 12nm
7nm にすれば、もっとパフォーマンス上がりそう。
昨年(2019年)の発表後、詳細は公開されていなかった気がする。
このチップは、A Bussiness-Driven Design。Google TPUと同じ。
TCO Efficient
- For data center inference acceleration
- High thoughput, low latency, power efficient
- High effective TOPs
CNN Optimized
- Convolution-efficient architecture
- As well as GEMM acceleration
Domain Prorammable
- Native Ops for computer vision deep learning tasks
- Expand to support future activation functions
推論用。で、Optimized for CV Tasks ということ。SRAM(192MB)のみ。
「Top Level Diagram」
Top Level
- 4 Cores w/ a ring bus (200 GB/s)
- Command Processor (CP) 各コアへ供給
- PCIE gen4 x16 (w DMA)
Each Core
- Tensor Engine (TE) : Weight + Activation Stationary, Fused OPs
- Pooling ENgine (PE) : POOL UNIT, INTP UNIT, Scale/Bias UNIT
- Memory Engine (ME)
SRAM-Only
Compressed and Quantized Storage/Processing
- Compressed Model
- Quantized computation and storage
- Vectoru Unit w/FP-24 (1 sign, 8 exp, 15 man)
Workflow at Command Level
- Host CPUは、CPと通信する
Workflow at Instruction Level
- Domain-specific instruction set
- Synchronization among 3 engines
Quantization Method
- Post-training Quantization (Pruning is optional)
- Static quantization at compile time
- Clip out-of-range post-rounding values
- Symmetric quantization
- Weights : per-channel
- Activations : per-tensor
Comparingwith Latest GPUs (ResNet-50 v1.5 Inference)
T4の17倍/3倍、V100の10倍/10倍、A100 の 3倍/3倍以上
Hanguang 800 NPUは、Alibaba Could で利用可能
ということで、中国国内での利用が多くなると思いますが、それ以外ではどうなるのかな。
Cloud用推論チップって、需要が難しい。自社でサービスを持っているところならいいかもしれないが、外販するのはかなり難しいと思う。
外販しているもので、利用されているのって、どのくらいあるのだろうか?