はじめに
昨日のGroqp祭りに便乗したことにより、昨日のブログのアクセスが1,554と通常の2~3倍になりました。
また、Google からの流入が増えているので、Groq で Google検索してみたら、なんと、2番目に出るようになっていました。当分、変らないでしょうね。
今日は、groq.com の chat で動いている LIama 2 70B は、どのぐらいのお値段で動くかを妄想したいと思います。
LIama 2 70B は、568個の chip で動いている。
ここに、下記のように書いてあります。説明のために引用します。
1. I think our GroqChat demo is using 568 GroqChips. I'm not sure exactly, but it's about that number.
回答者は、tom -san で下記のプロフィールによると、Groqの中の人ですね。
現状のシステムでは、GroqCard がベースシステムで、そのGroqCard を8枚収めたサーバーをベースにしています。568個となると、71個のサーバーが必要になります。
サーバーはラックに収められていると考えると、1Rackには7台 (内、1Rackのみ8台)に収まっていると考えると、10Rack必要になります。
昨日のブログに書きましたが、Mouser で GroqCard が $20,000 で売っているようですが、GroqCard には TSP というASICがメインでその他は電源とケーブルを接続するコネクタぐらいしか載っていません。なので、Gaming GPU と同じぐらいのお値段で作れると思います。Mid Range GPU の $1,000 ぐらいと仮定します。
$1,000 x 568 台で、$568,000 です。サーバーとしては、71台必要なので1台$15,000 - $20,000 とすると $1,065,000 - $1,420,000 と仮定し、ざっくり、$2M とします。
2snd Gen System
にある、2nd Gen System だと、1Uサーバーに4チップ載り、8台のサーバーで1つのノードを構成できます。サイズとしては、10Uぐらいなので、1Rackに4台のサーバーを収められそうです。 32チップ x 4 = 128チップ、5Rackで640チップです。これで現行のシステムに対して、半分のサイズで実現できます。お値段も4Uサーバーベースよりはお安くなるとおもいます。
3rd Gen System
3rd Gen System では、現在か開発中の Samsung 4nm を使ったシステムです。336チップが1つのノードになります。また、現行のチップは、GF14nm に対して、Samsung 4nm だと、搭載できるSRAMの容量は 230Mから4倍の1GB程度は搭載できそうです。そうなると、必要なチップの数は 1/4 になります。568/4 = 142 チップになり、3rd gen System の半分になります。
10Rackが1/4Rackになるので、お値段もそれなりになると考え、1/4 とすると、$2M => $500K
おわりに
超絶速い LIama 2 70B の推論システムの規模とお値段
- 現行のシステム では、10Rack で $2M
- 2nd Gen System では、5Rack で $1M
- 3rd Gen Systems では、1/2Rack で $500K
と妄想しました。
なお、お値段に対して、Groq さんのお気持ち(利益)が上乗せされますので、購入時はもっとお高いと思います。
となると、GPT-4 は 何Rack で実現できますでしょうか?
追記)、2024.02.23
Dylan Patel さんの記事「Groq Inference Tokenomics: Speed, But At What Cost?」を読んで、GroqCardの予測コストがほぼ当たっていました。あたしは$1000で、$1050です。
あたしのGroqCardの予測$1,000
— Vengineer@ (@Vengineer) 2024年2月21日
Dylan sanの算出$1,050
誤差5%我ながらスゴい https://t.co/0XVAyflCeW
上記のXの投稿のスレッドでちょっと会話しました(爆)