はじめに

TwitterのTLに流れてきた下記のツイート

Eliyan Technology May Rewrite How Chiplets Come Together - by @karlfreund in @ForbesTech

For generative #AI, NuLink increases memory capacity and thus the performance of #HBM-equipped #GPUs and ASICs for memory-dense applicationshttps://t.co/VhJr1IXXVI #HPC pic.twitter.com/2EKW79KcvG
— HPC Guru (@HPC_Guru) 2023年4月4日

Eliyan の技術を使えば、ChipにHBMをたくさん接続できるというお話

HBMがいっぱいあると嬉しい理由は？

記事は、Karl Freundの下記のもの

www.forbes.com

この記事の中の下図に、HBMがたくさんあると嬉しい根拠があることを示しています。説明のために引用します。

真ん中の下に、NVIDIA A100/40GB と A100/80GB で 3倍の性能差があるというもの。この図は、NVIDIAの公式サイトの NVIDIA A100 の紹介のところにあります。いづれなくなるので、SCREEN SHOTを残しておきます。

図の下に、下記のようにありました。A100/40GB の時は batch size = 32、A100/80GB の時は batch size = 48 で 1.5倍です。となると、batch size を 1.5倍、HBMメモリ容量が2倍で、合計 3倍になる感じでしょうか。。

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

元の図に戻って、HBMの容量が2倍になると性能が3倍になるということから、ASICを2個にして、HBMを2倍にして3倍、ASICを2個から3個にし、HBMを12個から24個にして3倍というロジックのようです。最初の1個のASICから3倍のASICになっても、ASIC1個あたりのHBMの数は6個から8個になっただけなので、そんなうまくいくとは思わないですが、どうなんでしょうか？

NuGear/NuLink

従来、Die間を Silicon Interposer 上で UCIe にて接続しているのを、NuGear/NuLink を使うことで、Organic Substrate で UCIe にて接続できると。これを使って、HBMもUCIeで接続するというアイデアです。。。

HBM3では、6.4Gbps x 1024bit = 819.2 GB/s です。UCIe 2.0 の 32Gbps だと、x256 (x64 が4個)で 819.2GB/s になります。6個のHBMを接続するためには、(64 x 4) x 6 必要になります。

おわりに

チップ間を NuLink を使って、UCIe で接続するアイデアはいいとおもいますが、流石に HBM3 を接続するには無理があるような気がします。

上記のTwitterのスレッドの返信で、Jan Gray -san が色々と書いています。。。これに対する返信はないのがちょっと気になります。

I couldn't tell from the co. website and this article what the Eliyan NuLink advance is. Signaling? Packaging? Yes.@UCIexpress defines standard (organic pkg) and advanced (high density: bridge/interposer) package profiles and 32Gb/s/IO signaling.https://t.co/CtUdQgtCzU pic.twitter.com/dE6YNlmDB4
— Jan Gray (@jangray) 2023年4月5日