はじめに
NVIDIAのGB10については、下記のブログに残しました。
また、CB10 の Grace chiplet については、下記のブログに残しました。
この時のメモリ帯域は、
- x64 x 8544Mbps x 8 = 546.112GB/s
としていて、この値は、Grace Super Chip と同じです。
$3,000 の デスクトップPCの CPU chiplet のメモリ帯域が サーバー用CPUのメモリ帯域と同じって、本当かな。。。と思い、再度、妄想しました。
それでは、
Let's 妄想
Grace Super Chip の振り返り
Grace Super Chip については、下記のブログにて取り上げていて、LPDDR5X は全部で16個付いています。16個で 500GB/s ぐらいということです。
GB10
GB10 には、LPDDR5X が8個接続しているということは、Grace Super Chip の半分ぐらい。
つまり、LPDDR5X のデータ幅は 64bit ではなく、32bit では?ということに。
- x32 x 8544Mbps x 8 = 273GB/s
が メモリ帯域ということになりますね。
NVLINK-C2C については、Grace Super Chip の片側 450GB/s ではなく、LPDDR5Xのメモリ帯域ぐらいになるんでしょうね。
GB202 のメモリ帯域との比較
RTX 5090 の GB202 のメモリ帯域は、1,800 GB/s のようです。
1,800 / 275 = 1/6.5
GB10 の GPU chiplet の GPUは、GB203 の 1/6.5 ぐらい。GB202 は 12 GCP なので、GPU chiplet の GPU は 2 GCP ぐらいがバランスが取れそうな感じ。
どうですかね。
おわりに
今回、再度、メモリ帯域について妄想したのは、下記のXの投稿からです。
速报,寄了嗷,NVIDIA Project Digits 内存带宽只有 275GB/s. 意味着跑 70B-int4 速度只能到 6.8 token/s. 如果跑 DeepSeek-R1-Distill-Qwen-32B-Q5_K_M, 大概是 12.5 token/s. 就是个更便宜的 MacMini M4 Pro。
— karminski-牙医 (@karminski3) 2025年1月26日
如果信了老黄的说法,用这个跑200B的大模型,一分钟也就能吐出来2句话。 pic.twitter.com/Vcq0f3CGGI
上記のLPDDR5Xのメモリ帯域が 273GB/s で、上記のXの投稿では、275GB/s ということなので、まー、合っているので?と思っています。
今回は、ここまでで、
では、次回も Let's 妄想