はじめに
DeepSeek-AIの論文「Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning」を覗いてみます。
論文
この論文で使っているハードウェアは、
- Fire-Flyer AI-HPC Architecture: We have deployed a cluster composed of 10,000 PCIe A100 GPUs for Deep Learning training purposes.
のようです。
NVIDIA の DGX A100 ではなく、PCIe版 A100 を 10,000 台のクラスタのようです。
え、H100 の 100,000 台じゃないんだ。台数で 1/10 の 10,000 台なんですね。。。
ノードの構成は、下記の図にあります。
8台の A100 PCIe があり、2枚を NVLINK で接続しています。IB Card (ConnectX-6, 200Gbps)が1枚。
- 2 * AMD 32 Cores EPYC Rome/Milan CPU
- 512GB 16-Channels DDR4-3200Mhz
- 8 * PCIe-A100-40GB 8 * SXM-A100-40GB
- 1 * Mellanox InfiniBand cx6 200Gbps NIC
NVIDIA DGX A100 では、
- 2 * AMD 64 Cores EPYC 7742 CPU
- 2048GB 16-Channels DDR4-3200Mhz
- 8 * SXM-A100-40GB
- 9 * Mellanox InfiniBand cx6 200Gbps NIC
GPUが PCIe <=> SMX だけでなく、CPUのコア数が半分 (32 cores <=> 64 cores)、メモリは、1/4 (512GB <=> 2048GB)、NICも ConnectX-6 が (1 <=> 9)
このようなハードウェアで、学習しているんですね。。。。
H100ベースのシステム
次のシステムが、H100ベースのシステムのようです。
the next-gen nodes feature a 1:1 GPU to NIC ratio, comparable to DGX-H100/B100 systems,
上記の図から、1ノードで4個のGPU(たぶん、PCIe版)、2個のGPU間は NVLINK で接続は A100と同じ。違いは、IB(400Gbps)が1つからGPUとペアになっている。 NVLINKで接続しているのなら、NVIDIA H100 NVLでメモリは、94GB ということになりますね。
おわりに
DeepSeek-AI については、こちらにあるように、ヘッジファンドで運用して設けたお金で DeepSeek を創業したっぽいですね。
謎に包まれた世界をリードする中国発AI「DeepSeek」の創業者が天才すぎる
— チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》 (@masahirochaen) 2025年1月23日
・ヘッジファンドで80億ドルの資産を運用し大成功
・その金でDeepSeekを創業
・たった2ヶ月と558万ドルで世界トップクラスAIモデルを開発(Meta:380億ドルも投下)
・中国政府主催の会合に出席
人生何周目なんだ… ↓(1/n) pic.twitter.com/POFeteG4Oa