Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

Intel Emerald Rapids の die shot

はじめに

Xの投稿に、Intel Emerald Rapids の die shot が流れてきたので、記録のために残します。

Intel Emerald Rapids

下記の投稿です。

無くなるともったいないので画像を引用します。

33 コア、DDR5 が両端に2 ch毎、PCIe Gen5 x16 が3組、UPI x24 が2組

vengineer.hatenablog.com

die 間は、7本の縦方向のMesh。1つのMesh で結構幅広な領域が必要なんですね。

おわりに

Emerald Rapids は、Granite Rapids です。この Grantie Rapids は、NVIDIA DGX B100 に使われると思います。

Granite Rapids は、Compute die と IO die が分かれます。。。下図は、「第6世代XeonのGranite Rapidsでは大容量L3を搭載しMCR-DIMMにも対応 インテル CPUロードマップ」から説明のために引用します。

実際の die を早く見てみたいです

AMD関連まとめ (2023年版)

2023年1月から2023年12月までにこのブログにアップしたAMD 関連(Xilinxを除く)のもののまとめです。

サマリー

  • 1月 : 2
  • 2月 : 4
  • 3月 : 7
  • 4月 : 6
  • 5月 : 2
  • 6月 : 5
  • 7月 : 1
  • 8月 : 2
  • 9月 : 2
  • 10月 : 1
  • 11月 : 6
  • 12月 : 7

49回でした。NVIDIAの57回には届きませんが、結構多いです。7日に1回程度ですね。

1月

2月

3月

4月

5月

6月

7月

8月

9月

10月

11月

12月

おわりに

AMDXilinxを除いているので、含めると、NVIDIAより多いです。

NVIDIA Q4.FY24

はじめに

NVIDIAのQ4.FY24の決算が21日(日本時間22日朝)に発表されました。

アナリスト予想を上回る結果となり、株価も上がっています。

売上のグラフ

売上のグラフをXに投稿したら、結構盛り上がりました。このブログを書いている時に、1.6万でした。

このグラフを見ると、2023年で一気に増えています。ただし、Data Center のみです。Data Center のみ儲かっています。

  • Revenue
  • Operating expenses
  • Operating income
  • Net income

をグラフにしてみました。Net income でもQ1.2023の売上( Revenue)を超えています。。。

おわりに

では、FY2025ではどうなるかを妄想

  • SK Hynix が 2024年3月にHBM3eを量産して、NVIDIA H200 が Q2.2024にリリース
  • H200が出るので、Q1.FY25 の売上は下がるかも
  • Q2FY25は、過去最高
  • Q3FY25も、過去最高
  • Q4FY25も、過去最高

ではないでしょうか?

何故なら、H200 を購入しないと、他に負けちゃうので。とりあえず、H100 と同じ台数ぐらいは出るのでは? 50万台は。。。

NVIDIA B100 を妄想する (その2)

はじめに

NVIDIA B100の妄想 (その1) を書いたのは、2023.12.23 のクリスマス前日

vengineer.hatenablog.com

この時は、2 die 構成から、L3 Cache die を追加できるようにするのでは?と思った次第です。

GB200 はどうなる?

B100を 2 die にした場合、Graceの次と繋げた、CB200 はどうなるのか?と

下図は、Nvidia's AD102 officially revealed, how close were the previous estimates? にある AD102 と GH100 の die shot です。H100の部分だけを説明のために引用します。

  • 左側 : PCIe Gen5 x16 と NVLINK v4 (x18)
  • 右側 : NVILINK-C2C

だと想定しています。このH100のdie を 2 die にすると、右側と左側が別々になっていしまします。

そこで下記の2つのケースを妄想しました

  • ケースA : die 間は NVLINK-C2C で接続して、外側は PCIe Gen5 x16 + NVLINK v5
  • ケースB : 両端をNVLINK-C2Cにして、die 間は NVILINK-C2C で接続して、反対側の1つには、NVLINK-C2C <=> PCIe Gen5 x16 + NVLINK v5 の IOD を追加

ケースBにすると、論理的には die は何個でも繋げられるというメリットがあります。

おわりに

今回の妄想は、 High Yield の「AMD ZEN 6 — Next-gen Chiplets & Packaging」を見たときに、思いつきました。

www.youtube.com

NVIDIAのビックカスタマーは、4社

はじめに

Xの投稿にNVIDIAのビッグカスタマーの情報が上げっていたので、記録として残します。

ビッグカスタマー

売上に対するビッグカスタマー4社

この4社で、40%。。。

NVIDIA H100 をたくさん導入した会社

下記の記事によると、H100をたくさん導入した会社

@luokai • Who did NVIDIA sell its H100 to? • Meta: 150000 • Microsoft: 150000 • Google, Amazon, Or... • Threads

  • Meta: 150000
  • Microsoft: 150000
  • Google, Amazon, Oracle, Tencent: 50000
  • CoreWeave: 40000
  • Baidu: 30000
  • Alibaba: 25000
  • ByteDance: 20000
  • Lambda: 20000
  • Tesla: 15000

NVIDIAのビッグカスタマーの順位と同じと考えちゃって、

  • Oracle : 5%
  • Tencent : 5%
  • CoreWeave : 4%
  • Baidu : 3%
  • Alibaba : 2.5%
  • ByteDance : 2%
  • Lambda : 2%
  • Tesla : 1.5%

ここまでで、25%

合計で、65%.。。

12社で、65%の売上??

NVIDIA の売上

このブログを書いた時は、まだ、Q4.FY24が発表されていません。詳細がでたら、追記します。

  • Q2.FY24

    • 全体 $13507M
    • Data Center : $10323M
    • 76.4 %
  • Q3.FY24

    • 全体 $18120M
    • Data Center $14514M
    • 80%

12社で 65% って、だいたい合っているんじゃないですか?

  • Q4.FY24
    • 全体 $22,103M
    • Data Center $18,404M
    • 83%

この投稿から

おわりに

12社で 売上の65%。なんか凄いですね。つまり、全体的に買われているのではなく、まとめて買ってくれるところを優先している感じですかね。まー、そうですよね。

Groq で LIama 2 70B を推論システムとして使った時の規模とお値段を妄想する

はじめに

昨日のGroqp祭りに便乗したことにより、昨日のブログのアクセスが1,554と通常の2~3倍になりました。

vengineer.hatenablog.com

また、Google からの流入が増えているので、Groq で Google検索してみたら、なんと、2番目に出るようになっていました。当分、変らないでしょうね。

今日は、groq.com の chat で動いている LIama 2 70B は、どのぐらいのお値段で動くかを妄想したいと思います。

LIama 2 70B は、568個の chip で動いている。

ここに、下記のように書いてあります。説明のために引用します。

1. I think our GroqChat demo is using 568 GroqChips. I'm not sure exactly, but it's about that number.

回答者は、tom -san で下記のプロフィールによると、Groqの中の人ですね。

現状のシステムでは、GroqCard がベースシステムで、そのGroqCard を8枚収めたサーバーをベースにしています。568個となると、71個のサーバーが必要になります。

サーバーはラックに収められていると考えると、1Rackには7台 (内、1Rackのみ8台)に収まっていると考えると、10Rack必要になります。

昨日のブログに書きましたが、Mouser で GroqCard が $20,000 で売っているようですが、GroqCard には TSP というASICがメインでその他は電源とケーブルを接続するコネクタぐらいしか載っていません。なので、Gaming GPU と同じぐらいのお値段で作れると思います。Mid Range GPU の $1,000 ぐらいと仮定します。

$1,000 x 568 台で、$568,000 です。サーバーとしては、71台必要なので1台$15,000 - $20,000 とすると $1,065,000 - $1,420,000 と仮定し、ざっくり、$2M とします。

2snd Gen System

vengineer.hatenablog.com

にある、2nd Gen System だと、1Uサーバーに4チップ載り、8台のサーバーで1つのノードを構成できます。サイズとしては、10Uぐらいなので、1Rackに4台のサーバーを収められそうです。 32チップ x 4 = 128チップ、5Rackで640チップです。これで現行のシステムに対して、半分のサイズで実現できます。お値段も4Uサーバーベースよりはお安くなるとおもいます。

3rd Gen System

3rd Gen System では、現在か開発中の Samsung 4nm を使ったシステムです。336チップが1つのノードになります。また、現行のチップは、GF14nm に対して、Samsung 4nm だと、搭載できるSRAMの容量は 230Mから4倍の1GB程度は搭載できそうです。そうなると、必要なチップの数は 1/4 になります。568/4 = 142 チップになり、3rd gen System の半分になります。

10Rackが1/4Rackになるので、お値段もそれなりになると考え、1/4 とすると、$2M => $500K

おわりに

超絶速い LIama 2 70B の推論システムの規模とお値段

  1. 現行のシステム では、10Rack で $2M
  2. 2nd Gen System では、5Rack で $1M
  3. 3rd Gen Systems では、1/2Rack で $500K

と妄想しました。

なお、お値段に対して、Groq さんのお気持ち(利益)が上乗せされますので、購入時はもっとお高いと思います。

となると、GPT-4 は 何Rack で実現できますでしょうか?

追記)、2024.02.23

Dylan Patel さんの記事「Groq Inference Tokenomics: Speed, But At What Cost?」を読んで、GroqCardの予測コストがほぼ当たっていました。あたしは$1000で、$1050です。

上記のXの投稿のスレッドでちょっと会話しました(爆)

www.semianalysis.com

NVIDIA H200のメモリ帯域は 4.8TB/s、B100のメモリ帯域は、どうなる?

はじめに

NVIDIAのH200。H100に対しての変更点は、メモリが HBM3の96GBからHBM3eの141GBになっただけ?

で、メモリ帯域は?と調べてみたら、下記の記事では、4.8TB/s とありました。

gigazine.net

HBM Roadmap

下記のTrendforceの記事によると、

  • HBM3 :

    • Samsung : 6.4Gbps
    • SK hynix : 5.6 - 6.0Gbps
  • HBM3e

    • Samsung :8
    • SK hynix : 8
    • Micron : 8

www.trendforce.com

H100/H200

H100のメモリ帯域は、3TB/s 。80GBは5個のHBM3なので、3,000 * 8 / 5 / 1024bit = 4.6875 Gbps。SK hynix の HBM3 を使っている

H200のメモリ帯域は、4.8TB/s。141GBは6個のHBM3またはHBM3eなので、4,800 * 8 / 6 / 1024bit = 6.25 Gbps

HBM3e なら SK Hynix が2024年3月に量産だから、売り上げは Q2.2024 になりますね。

B100

B100 は、2 die 構成で 1 die に HBM3e が4個付いていると想定すると、

6.4Gbps 品だと、6.4 x 1024 x 8 / 8 = 6.553 GB/s、1 die 換算で 3.2765GB/s で H100より大きい。つまり、1die で H100 の Compute をサポートできる!

8.0Gbps 品だと、8.0 x 1024 x 8 / 8 = 8.192 GB/s、1 die 換算で 4.096GB/s で H100 の 33%アップ。つまり、1 die で H100 の 1.33 倍の Compute をサポートできる!

おわりに

LLMでは、Computeの性能向上だけでなく、メモリ帯域と容量が重要になります。となると、Compute を増やすのではなく、メモリ帯域および容量のバランスをとって、適当な量のComputeのdieを2つにした方がいいのでしょうか?

あ、L3 Cache という作戦がありますが、LLMで L3 Cache って効果的なのだろうか?

から、

  • LLM Inference では、L3 Cache は効果無
  • LLM Training では、L3 Cache は効果有

コストを考えると、Inference用(L3 Cache無)とTraning用(L3 Cache有)の2つのプロダクトを出すといいのだが、どうだろうか?