Vengineerの妄想

人生を妄想しています。

DeepSeek-AIの論文「Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning」

はじめに

DeepSeek-AIの論文「Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning」を覗いてみます。

論文

こちら

この論文で使っているハードウェアは、

  • Fire-Flyer AI-HPC Architecture: We have deployed a cluster composed of 10,000 PCIe A100 GPUs for Deep Learning training purposes.

のようです。

NVIDIA の DGX A100 ではなく、PCIe版 A100 を 10,000 台のクラスタのようです。

え、H100 の 100,000 台じゃないんだ。台数で 1/10 の 10,000 台なんですね。。。

ノードの構成は、下記の図にあります。

8台の A100 PCIe があり、2枚を NVLINK で接続しています。IB Card (ConnectX-6, 200Gbps)が1枚。

  • 2 * AMD 32 Cores EPYC Rome/Milan CPU
  • 512GB 16-Channels DDR4-3200Mhz
  • 8 * PCIe-A100-40GB 8 * SXM-A100-40GB
  • 1 * Mellanox InfiniBand cx6 200Gbps NIC

NVIDIA DGX A100 では、

  • 2 * AMD 64 Cores EPYC 7742 CPU
  • 2048GB 16-Channels DDR4-3200Mhz
  • 8 * SXM-A100-40GB
  • 9 * Mellanox InfiniBand cx6 200Gbps NIC

GPUが PCIe <=> SMX だけでなく、CPUのコア数が半分 (32 cores <=> 64 cores)、メモリは、1/4 (512GB <=> 2048GB)、NICも ConnectX-6 が (1 <=> 9)

このようなハードウェアで、学習しているんですね。。。。

H100ベースのシステム

次のシステムが、H100ベースのシステムのようです。

the next-gen nodes feature a 1:1 GPU to NIC ratio, comparable to DGX-H100/B100 systems,

上記の図から、1ノードで4個のGPU(たぶん、PCIe版)、2個のGPU間は NVLINK で接続は A100と同じ。違いは、IB(400Gbps)が1つからGPUとペアになっている。 NVLINKで接続しているのなら、NVIDIA H100 NVLでメモリは、94GB ということになりますね。

おわりに

DeepSeek-AI については、こちらにあるように、ヘッジファンドで運用して設けたお金で DeepSeek を創業したっぽいですね。