はじめに
SambaNova SystemsのSN40Lについては、
9月21日のブログに書きました。
SN10/SN20/SN30/SN40Lの比較
その後に、THE NEXTPLATFORM から
という記事がアップされました。この記事の中には、下記のようなSN10, SN20(これは知らなかった), SN30, SN40L の表が載っていました(説明のために引用します)。
この表を眺めて、色々と考えたので、記録のためにブログとして残します。
SN20というのがあって、このSN20のdieを2つとDRAMを載せたのがSN30だったんですね。
SN10とSN20を比較すると、トランジスタ数が3B増えて、FP16の性能が24TFLOPSアップしている感じです。6CHのDDR4ということで最大1.5TB接続可能。1CHあたり256GBとなると、128GBx2が最大構成になりそうです。
SN30はパッケージの中にDRAMを入れているというお話です。DRAMもDDR4からDDR5にしたが、容量が512GBx2、1 die で512GBとなっています。6CHで512GBだと中途半端なので4CHで512GBと考えると、128GBx4になります。DDR4の半分になってしまいます。
SN40Lでは、DDR5だけでなく、HBM3 x 4 x 2 が追加されました。DDR5は 768GB x 2 = 1.5TG です。各die が 6CHだと、128GB x 6CH になります。これは、SN30の1CH当たりの容量と同じになります。
DDR4 DIMMの容量とDDR5 DIMM の容量を調べてみたら、DDR4では128GBはあるが、DDR5は64GBになっています。SN10/SN20のDDR4での1CH、256GBは128GB x 2で、SN30/SN40LのDDR5での1CH、128GBは 64GB x 2 って感じなんでしょうか?
HBM3
HBM3は最大6.4Gbpsなので、819.2GB/s です。DDR5-4800で58.12GB/s、DDR5-5600で65.68GB/sなので10倍以上です。
1 die で HBM3が32GBに対して、DDR5が768GBです。20倍以上になります。
DRAMの用途が変わった
SambaNova Systems の RDUは、大容量メモリを入力データ用に使っていたのが、生成AIバブルによって、LLMのパラメータのために使う、その場合は近くに速いメモリが欲しい。そこで、HBM3を追加したという感じではないでしょうか?
HBM3であれば、パッケージの中で閉じるのでシステム的には大きな影響を与えないと思います。
ただし、SN10の die shot を見る限り、DDR4のPhy(6組)が2辺(各辺に4CH)分あるので、これに加えて、HBM3のPHYが4個をどのように並べて、DDR5の信号をどのようにパッケージに引き出しているのが非常に気になります。
おわりに
このSN40LをTraining用とするのか、Inference用とするのか?それとも、両方とするのか?どうなんでしょうかね。
下記の記事のタイトルでは、Inference としていますね。TrainingはNVIDIAのGPGPU、Inferenceは我々のSN40Lはいかがですか?という感じですかね。とは言え、SN40Lって、H100よりどのくらいお安いのでしょうかね。