はじめに
NVIDIAのGTC22にて、
- Hopper (H100)
- DGX H100
- Grace Superchip
の発表がありましたね。
Hopper (H100)
- TSMC N4 (A100 : TSMC N7)
- 80 billion transistors, a die size of 814 mm2 (A100 : 54.2 billion transistors with a die size of 826 mm2)
- 50 MB L2 cache (A100 : 40MB L2 Cache)
- HBM3 x 6 (A100 : HBM2E x 6、売り物は6個の内、5個を使用)
- 16896 FP32 CUDA Cores (A100 : 6912 FP2 CUDA Cores)
- TensorCore (FP8) x 528 (A100 : 432)
- FP16/TF32、FP64/FP32は x3
- 2x faster clock-for-clock performance per SM (動作周波数に関しては、1.3x っぽい)
- NVLINK v4 : 900GB/s = 18 x 50GB/s (A100 600GB/s = 12 x 50GB/s)
- 700W
- Transfomer engine
- 7x Secure Tenants
- Confidential Computing
- PCIe Gen5 (A100 : PCIe Gen4)
- Dynamic Programming (DPX instructions)
DGX H100
- Hopper H100 x 8
- NVSwitch x 4 (A100の時は、NV Switch x 6)
- PCIe Gen5
- CONNECTX-7 x 8 (TSMC 6N、400G GPU Direct) -2x Bluefield-3 DPUs
Grace Superchip
- 144 cores (Grace 1個では、72 cores x 2 = 144 cores)
- LPDDR5X x 8 channels (32GB x 2 = 256GB x 2 = 512GB)
- 4th generation NVLINK (900GB/s)
- NVLink C2C
Grace x 2 + Hopper x 8 まで可能
4th generation NVLINK
DGX H100 で、900GB/s : 18 x 50GB/s、各Link (50GB/s = 100Gbps x 4)
おわりに
H100、予測通り、1 die でした。TSMC N7 の A100 に対して、TSMC N4 の H100 だと 2倍ぐらいになるのでしょうか?
80 billion transistors, a die size of 814 mm2 (A100 : 54.2 billion transistors with a die size of 826 mm2)
のようなので、1.5倍ぐらいですね