Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIAのHopper (H100)とGrace Superchip

はじめに

NVIDIAのGTC22にて、

  • Hopper (H100)
  • DGX H100
  • Grace Superchip

の発表がありましたね。

Hopper (H100)

  • TSMC N4 (A100 : TSMC N7)
  • 80 billion transistors, a die size of 814 mm2 (A100 : 54.2 billion transistors with a die size of 826 mm2)
  • 50 MB L2 cache (A100 : 40MB L2 Cache)
  • HBM3 x 6 (A100 : HBM2E x 6、売り物は6個の内、5個を使用)
  • 16896 FP32 CUDA Cores (A100 : 6912 FP2 CUDA Cores)
  • TensorCore (FP8) x 528 (A100 : 432)
  • FP16/TF32、FP64/FP32は x3
  • 2x faster clock-for-clock performance per SM (動作周波数に関しては、1.3x っぽい)
  • NVLINK v4 : 900GB/s = 18 x 50GB/s (A100 600GB/s = 12 x 50GB/s)
  • 700W
  • Transfomer engine
  • 7x Secure Tenants
  • Confidential Computing
  • PCIe Gen5 (A100 : PCIe Gen4)
  • Dynamic Programming (DPX instructions)

White paper

DGX H100

  • Hopper H100 x 8
  • NVSwitch x 4 (A100の時は、NV Switch x 6)
  • PCIe Gen5
  • CONNECTX-7 x 8 (TSMC 6N、400G GPU Direct) -2x Bluefield-3 DPUs

Grace Superchip

  • 144 cores (Grace 1個では、72 cores x 2 = 144 cores)
  • LPDDR5X x 8 channels (32GB x 2 = 256GB x 2 = 512GB)
  • 4th generation NVLINK (900GB/s)
  • NVLink C2C

Grace x 2 + Hopper x 8 まで可能

4th generation NVLINK

DGX H100 で、900GB/s : 18 x 50GB/s、各Link (50GB/s = 100Gbps x 4)

おわりに

H100、予測通り、1 die でした。TSMC N7 の A100 に対して、TSMC N4 の H100 だと 2倍ぐらいになるのでしょうか?

80 billion transistors, a die size of 814 mm2 (A100 : 54.2 billion transistors with a die size of 826 mm2)

のようなので、1.5倍ぐらいですね