Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Eliyanの技術を使えば、HBMをいっぱい接続することができる?

はじめに

TwitterのTLに流れてきた下記のツイート

Eliyan の 技術を使えば、ChipにHBMをたくさん接続できるというお話

HBMがいっぱいあると嬉しい理由は?

記事は、Karl Freundの下記のもの

www.forbes.com

この記事の中の下図に、HBMがたくさんあると嬉しい根拠があることを示しています。説明のために引用します。

真ん中の下に、NVIDIA A100/40GB と A100/80GB で 3倍の性能差があるというもの。この図は、NVIDIAの公式サイトの NVIDIA A100 の紹介のところにあります。いづれなくなるので、SCREEN SHOTを残しておきます。

図の下に、下記のようにありました。A100/40GB の時は batch size = 32、A100/80GB の時は batch size = 48 で 1.5倍です。となると、batch size を 1.5倍、HBMメモリ容量が2倍で、合計 3倍になる感じでしょうか。。

DLRM on HugeCTR framework, precision = FP16 | ​NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

元の図に戻って、HBMの容量が2倍になると性能が3倍になるということから、ASICを2個にして、HBMを2倍にして3倍、ASICを2個から3個にし、HBMを12個から24個にして3倍というロジックのようです。最初の1個のASICから3倍のASICになっても、ASIC1個あたりのHBMの数は6個から8個になっただけなので、そんなうまくいくとは思わないですが、どうなんでしょうか?

NuGear/NuLink

従来、Die間を Silicon Interposer 上で UCIe にて接続しているのを、NuGear/NuLink を使うことで、Organic Substrate で UCIe にて接続できると。これを使って、HBMもUCIeで接続するというアイデアです。。。

HBM3では、6.4Gbps x 1024bit = 819.2 GB/s です。UCIe 2.0 の 32Gbps だと、x256 (x64 が4個)で 819.2GB/s になります。6個のHBMを接続するためには、(64 x 4) x 6 必要になります。

おわりに

チップ間を NuLink を使って、UCIe で接続するアイデアはいいとおもいますが、流石に HBM3 を接続するには無理があるような気がします。

上記のTwitterのスレッドの返信で、Jan Gray -san が色々と書いています。。。これに対する返信はないのがちょっと気になります。