はじめに
昨日は、このブログに書いたGroqの記事についてまとめました。
今回は、来年、V2 Chipが上がってきて、その V2 Chip を使った、3rd Gen System について妄想してみたいと思います。
では、
Let's 妄想
GroqNode と GroqRack
現在のプロダクトは、GroqNode を 9個、Rackに入れた GroqRack をベースにして、クラスタを構築しているようです。
下記は、ここにある Product Brief からの引用です。
Realscale Network なるものが、288 x QSFP28 個あります。
また、ホストプロセッサとしては、AMD EPYC 7413 が2個載っています。
下記のGroq Rackの裏側でも紹介した、画像
を見てみると、GroqNodeからは、4 x 8 個 = (32個)のケーブルが出ています。32個 x 9 GroqNode = 288個で、これは上記の Realscale Network の 288 x QSFP28 と同じです。
下図をThe Nextplatform の記事 (Groq Shares Recipe for TSP Nodes, Systemsから説明のために引用します。
1つの AMD EPYC に4つの TSP (LPU) が接続しています。各LPU は2組のLinkで接続しています。各LPUから別途4つのLinkが外に出ています。
この4つのLinkがそれぞれ、QSFP28コネクタに対応することになります。
2nd Gen System とは、
まず、3rd Gen System の前に、2nd Gen System を振り返ります。下記の図は、下記のブログからの引用です。元画像は、Groqの講演ビデオ(Youtube)からです。
2nd Gen System では、下記のようにボード上に
- 4個の V1 Chip
- CPU + DIMM x 1
- (FPGA + DIMM x 4) x 2
- Connector その1 x 2
- Connector その2 x 4
- Connector その3 x 2
- Connector その4 x 8
が載っています
上記の GroqNode との対応を考えると、4個のTSP(LPU) 間は同じ 2 Link (赤)での接続。オレンジの2つで 2つのFPGAと接続。残りの2つが下側のコネクタに接続。2 x 4 TSP (LPU) なので8個のコネクタになる。
下側の2つのコネクタが Ethernet でこれは、FPGAから出ているのでしょうか?
CPUは4つのTSP(LPU) と PCIe Gen4 x16 で接続しているのでしょうか? となると、この CPU は、結構な PCIe lanes (64 lanes以上)が必要です。Storage用のM.2も必要なので +4 lanes 必要です。
上にあるコネクタは電源関係でしょうか?
3rd Gen System
下記の図から、3rd Gen System では、11枚のボードで構成されています。11枚で 336 x V2 LPU なので、1ボードには 32個の V2 LPU は載っていると妄想します。11 x 32 = 352 個。
3rd Gen System の各ボードには、20個のコネクタが出ています。2nd Gen System では 4 x V1 LPU で 8個です。となると、20/8 = 2.5倍となり、4個 x 2.5 = 10個程度になるのでは?
また、V2 LPU では、下図にあるように、Multi-Chip Module を利用するようなことも書かれています。
32個のV2 LPUを2個を1つのパッケージに収めれば、16個。16個なら 4 x 4 でボードに置けそうな。
V1 LPU は、GF14nm で開発しました。一方、V2 LPU は、Samsung 4nm です。14nm => 10nm => 7nm => 5nm (4nm) とプロセスが進化していることを考えると、0.7 x 0.7 x 0.7 = 0.343 になり、同じ面積なら 3倍程度入ることになります。大きなチップを作りより、小さなチップを作った方が歩留まりがいいので、V1 LPU の半分程度の大きさで V2 LPU を作って、それを Multi-Chip Module にするという感じなのでしょうか?
- Samsung's new US chip fab wins first foundry order from Groq - The S.Korean chip giant will build AI chips for the US fabless startup on its 4 nm node at its new factory in Taylor in H2 2024
おわりに
今回は、Groq の 2nd Gen System と 3rd Gen System について、妄想してみました。
2nd Gen System は、だいたい妄想できましたが、3rd Gen System はまだまだ分からないことが多いので、どうなるのか?
16個のMCMをCPUにPCIe経由で接続するのって、どうするのでしょうかね? NVIDIA の ConnectX-X のように、PCIe Switch が付いているとそれなりにできそうですが、どうなんでしょうかね。
また、ChipとしてはDRAMを持つ必要が無いですが、2nd Gen System を見る限り、FPGA に4枚のDRAMが接続されていて、そのFPGAに各TSP(LPU)が接続しているので、FPGAに接続しているDRAMを V2 LPU に接続するのもありでは?とも思っています。
そんな感じで、下記のブログに書いたものが正しいのかもしれません。。
では、次回も
Let's 妄想