はじめに
Microsoft が Maia 200 を発表しましたので、記録に残します。
Deep dive into the Maia 200 architecture | Microsoft Community Hub
Maia 100 の振り返り
Maia 100の詳細については、2024年8月30日に下記のブログを書きました。
- ~ 820mm2
- TSMC 5nm
- TSMC CoSoW-S
- HBM2e:約3.5Gbps, 64GB, 1.8TB/s
- Peak Dense Tensor POPS : 6bit 3, 9bit 1.5P, BF16 0.8P (800 TFLOPS)
- NVIDIA H100 の BF16 が 1000 TFLOPS弱
- 12 x 400Gbps
- PCIe Gen5 x 8
- TDP : Design to, 700W, Provision : 500W
Maia 200
- TSMC 3nm
- native FP8/FP4 tensor cores
- 216GB HBM3e at 7 TB/s
- 272MB of on-chip SRAM
- data movement engines
- 10 petaFLOP/FP4 : three times the FP4 performance of the third generation Amazon Trainium
- 5 petaFLOPS/FP8 : FP8 performance above Google’s seventh generation TPU
- TDP : 750W
Maia 100 と比較すると、
- process : TSMC 5nm => 3nm
- HBM : 2e/64GB (16GB x4) => 3e/216GB (36GB x6)
- 6bit : 3 PFLOPs, 9bit : 1.5 PFLOPS => FP4 10 FLOPs, FP8 5 FLOPs
- TDP : 700W => 750W
おわりに
FP4 FLOPs って、
- GB200 : Dense (10 PFLOPs), Sparse (20 PFLOPs)
- GB300 : Dense (15 PFLOPs), Sparse (20 PFLOPs)
なので、GB200と同じなんですかね。GB200は、2 dieだけど、Maia 200 は、1 die なので、1 die 換算では、Maia 200 が一番強いということでしょうか?
ということで、FP4 Dense の 1 Die 当たりの性能は、
- Maia 200 : 10 PFLOPs
- GB300 : 7.5 PFLOPs
- GB200 : 5.0 PFLOPs
になり、Maia 200 が最強ということ?
関連記事