HotChips32を振り返る：Alibaba Hanguang 800 NPU

HotChips32を振り返る、4日目は、Alibaba Hanguang 800 NPU

7nm にすれば、もっとパフォーマンス上がりそう。

昨年(2019年)の発表後、詳細は公開されていなかった気がする。

このチップは、A Bussiness-Driven Design。Google TPUと同じ。

TCO Efficient

CNN Optimized

Domain Prorammable

推論用。で、Optimized for CV Tasks ということ。SRAM(192MB)のみ。

「Top Level Diagram」

Top Level

Each Core

SRAM-Only

Compressed and Quantized Storage/Processing

Workflow at Command Level

Workflow at Instruction Level

Quantization Method

Comparingwith Latest GPUs (ResNet-50 v1.5 Inference)

T4の17倍/3倍、V100の10倍/10倍、A100 の 3倍/3倍以上

Hanguang 800 NPUは、Alibaba Could で利用可能

ということで、中国国内での利用が多くなると思いますが、それ以外ではどうなるのかな。

Cloud用推論チップって、需要が難しい。自社でサービスを持っているところならいいかもしれないが、外販するのはかなり難しいと思う。

外販しているもので、利用されているのって、どのくらいあるのだろうか？