@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった
HuaweiのDa Vinci architecture搭載の Ascend 910 と Ascend 310
講演はどうやらリモート?
Da Vinciコアには、
Cube : 4096 (16^3) FP16 MACs + 8192 INT8 MACs
Vector : 2048bit INT8/FP16/FP32 vector with special functions
(activation functions, NMS- Non Minimum Suppression, ROI, SORT)
2次元Matrixではなく、3次元のCubeですよ。これが特徴ですね。
Da vinciには、
- Max : 8192(Cube), 256(Vector)
- Lite : 4096(Cube), 128(Vector)
- Tiny : 512(Cube), 32(Vector) without L2
の3種類があるようですね。
学習用のSoCでは、Logic + 3DSRAM + 12 HBMというのも可能に。。。
これは凄いですね。。。
学習チップ:Ascend 910
Huaweiのサイトを見てみたら、
Ascend 910 では、
256 TFLOPS@FP16, 512 TOPS@INT8
4 Rows x 4 Colums = 24 Cores
1024bis 2GHz NoC Mesh
PCIe 4.0 x16
HBM
3x 240Gbps HCCS ports (for NUMA connections)
RoCE v2 ((2x100Gbps : for networking)
350W
7+nm EUV (182.4 mm^2)
Ascend 910 Server (x8 Ascend 910 + two CPUs = 6KW)
Ascend 910 Cluster (2048 Node:個 = 256 Servers)
Main Chip + Nimbus Chip + HBM*4
ディープ・ラーニングフレームワークは、独自の MindSpore なんですね。
推論チップ:Ascend 310
- 16 TOPS@INT8, 8FLOPS@FP16
- 8W
- 12nm