Vengineerの妄想

人生を妄想しています。

Single Socket + 4 x GPU (HGX A100 4-GPU) というサーバー

はじめに

TwiiterのTLに流れてきたので、大本の The Next Platform の記事を眺めてみました。

www.nextplatform.com

確かに、AMD EPYC が載ったサーバーでは、2ソケットではなく、1ソケットもあるのかな?と

2 x CPU + 4 x GPU

かなり前からサーバーと言えば、Xeon の 2 Socket 。。そして、AMD も EPYC を出し、こちらも 2 Socket。

だいたいNVIDIAGPUを搭載しているので、2 x CPU Sockets + 8 x GPUNVIDIA P100のSMXが出てくる前は、PCIe Card を8枚刺した 4Uサーバーで。

P100のSMXが出てきてから、V100、A100も同じようなスタイルになります。V100からは HGX なる8 x GPU搭載のHGXをベースとした 4Uサーバーに。 HGXには 8 x GPU と 4 x GPU の2種類があり、8 x GPU の時は CPUは 2 Socket、 4 x GPU の時は CPU は 1 Socket でも OK という感じです。

4 x GPU の HGX と 2 CPU Socket だと、4Uサーバーではなく、2Uサーバーになります。たとえば、下記のようなもの

www.gdep.co.jp

説明のために、上記のサイトのサーバーの写真を引用します。AMD EPYC x2 と HGX (4 x GPU)です。ちなみにお値段は、GPU(A100/40GB)版で1087万円(税込)、GPU(A100/80GB)版では税込1243万円です。40GB => 80GB の差分は160万ということなので 1基で40万円(40GBのHBM2eメモリ)、1GB1万円)

f:id:Vengineer:20210912100600p:plain

1 x CPU *+ 4 x GPU

もともと、2 x CPU + 8 x GPU だったので、GPUを半分の4個にしたのなら、CPUも半分してもOKだと思うので 1 x CPU + 4 x GPU の構成ってありだと思うんです。

サーバーではないですが、AMD Rome x 1 のシステムのブロック図かありました。

AMD EPYC Rome SKU List and Block Diagram Posted | Tom's Hardware

説明のために、そのブロック図を引用します。AMD Rome は 128本のPCIe Gen4をサポートしています。2 Socket になると、この中の 16 x 2 or 16 x 3 を ROME間の接続に使います。そのため、1 socket からは 16 x 4 + 32 or 16 x 4 + 16 になってしまいます。2 socket なので、16 x 8 + 64 or 16 x8 + 32 になり、システムを組にはそれほど困りません。

f:id:Vengineer:20210912101656p:plain

1 socket であれば、16 x 4 + 64 になり、上記のブロック図のように、8 x SilimLine 4i (Storage) + 2 x SlimLine 4i + 2 x M.2 の Storage も接続できます。 複数ノードを使ったGPUの利用をしないという前提ならネットワーク用として、x16を1本だせます。

(PCIe 2.0 x1 + x1)は上記の 128本のPCIe Gen4 とは別にあります。

おわりに

ということで、1 x CPU (Single Socket) + 4 x GPU の構成は、ありだと思います。