Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

Groq で LIama 2 70B を推論システムとして使った時の規模とお値段を妄想する

はじめに

昨日のGroqp祭りに便乗したことにより、昨日のブログのアクセスが1,554と通常の2~3倍になりました。

vengineer.hatenablog.com

また、Google からの流入が増えているので、Groq で Google検索してみたら、なんと、2番目に出るようになっていました。当分、変らないでしょうね。

今日は、groq.com の chat で動いている LIama 2 70B は、どのぐらいのお値段で動くかを妄想したいと思います。

LIama 2 70B は、568個の chip で動いている。

ここに、下記のように書いてあります。説明のために引用します。

1. I think our GroqChat demo is using 568 GroqChips. I'm not sure exactly, but it's about that number.

回答者は、tom -san で下記のプロフィールによると、Groqの中の人ですね。

現状のシステムでは、GroqCard がベースシステムで、そのGroqCard を8枚収めたサーバーをベースにしています。568個となると、71個のサーバーが必要になります。

サーバーはラックに収められていると考えると、1Rackには7台 (内、1Rackのみ8台)に収まっていると考えると、10Rack必要になります。

昨日のブログに書きましたが、Mouser で GroqCard が $20,000 で売っているようですが、GroqCard には TSP というASICがメインでその他は電源とケーブルを接続するコネクタぐらいしか載っていません。なので、Gaming GPU と同じぐらいのお値段で作れると思います。Mid Range GPU の $1,000 ぐらいと仮定します。

$1,000 x 568 台で、$568,000 です。サーバーとしては、71台必要なので1台$15,000 - $20,000 とすると $1,065,000 - $1,420,000 と仮定し、ざっくり、$2M とします。

2snd Gen System

vengineer.hatenablog.com

にある、2nd Gen System だと、1Uサーバーに4チップ載り、8台のサーバーで1つのノードを構成できます。サイズとしては、10Uぐらいなので、1Rackに4台のサーバーを収められそうです。 32チップ x 4 = 128チップ、5Rackで640チップです。これで現行のシステムに対して、半分のサイズで実現できます。お値段も4Uサーバーベースよりはお安くなるとおもいます。

3rd Gen System

3rd Gen System では、現在か開発中の Samsung 4nm を使ったシステムです。336チップが1つのノードになります。また、現行のチップは、GF14nm に対して、Samsung 4nm だと、搭載できるSRAMの容量は 230Mから4倍の1GB程度は搭載できそうです。そうなると、必要なチップの数は 1/4 になります。568/4 = 142 チップになり、3rd gen System の半分になります。

10Rackが1/4Rackになるので、お値段もそれなりになると考え、1/4 とすると、$2M => $500K

おわりに

超絶速い LIama 2 70B の推論システムの規模とお値段

  1. 現行のシステム では、10Rack で $2M
  2. 2nd Gen System では、5Rack で $1M
  3. 3rd Gen Systems では、1/2Rack で $500K

と妄想しました。

なお、お値段に対して、Groq さんのお気持ち(利益)が上乗せされますので、購入時はもっとお高いと思います。

となると、GPT-4 は 何Rack で実現できますでしょうか?

追記)、2024.02.23

Dylan Patel さんの記事「Groq Inference Tokenomics: Speed, But At What Cost?」を読んで、GroqCardの予測コストがほぼ当たっていました。あたしは$1000で、$1050です。

上記のXの投稿のスレッドでちょっと会話しました(爆)

www.semianalysis.com