はじめに
TwitterのTLに流れてきた下記のツイート
Eliyan Technology May Rewrite How Chiplets Come Together - by @karlfreund in @ForbesTech
— HPC Guru (@HPC_Guru) 2023年4月4日
For generative #AI, NuLink increases memory capacity and thus the performance of #HBM-equipped #GPUs and ASICs for memory-dense applicationshttps://t.co/VhJr1IXXVI#HPC pic.twitter.com/2EKW79KcvG
Eliyan の 技術を使えば、ChipにHBMをたくさん接続できるというお話
HBMがいっぱいあると嬉しい理由は?
記事は、Karl Freundの下記のもの
この記事の中の下図に、HBMがたくさんあると嬉しい根拠があることを示しています。説明のために引用します。
真ん中の下に、NVIDIA A100/40GB と A100/80GB で 3倍の性能差があるというもの。この図は、NVIDIAの公式サイトの NVIDIA A100 の紹介のところにあります。いづれなくなるので、SCREEN SHOTを残しておきます。
図の下に、下記のようにありました。A100/40GB の時は batch size = 32、A100/80GB の時は batch size = 48 で 1.5倍です。となると、batch size を 1.5倍、HBMメモリ容量が2倍で、合計 3倍になる感じでしょうか。。
DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.
元の図に戻って、HBMの容量が2倍になると性能が3倍になるということから、ASICを2個にして、HBMを2倍にして3倍、ASICを2個から3個にし、HBMを12個から24個にして3倍というロジックのようです。最初の1個のASICから3倍のASICになっても、ASIC1個あたりのHBMの数は6個から8個になっただけなので、そんなうまくいくとは思わないですが、どうなんでしょうか?
NuGear/NuLink
従来、Die間を Silicon Interposer 上で UCIe にて接続しているのを、NuGear/NuLink を使うことで、Organic Substrate で UCIe にて接続できると。これを使って、HBMもUCIeで接続するというアイデアです。。。
HBM3では、6.4Gbps x 1024bit = 819.2 GB/s です。UCIe 2.0 の 32Gbps だと、x256 (x64 が4個)で 819.2GB/s になります。6個のHBMを接続するためには、(64 x 4) x 6 必要になります。
おわりに
チップ間を NuLink を使って、UCIe で接続するアイデアはいいとおもいますが、流石に HBM3 を接続するには無理があるような気がします。
上記のTwitterのスレッドの返信で、Jan Gray -san が色々と書いています。。。これに対する返信はないのがちょっと気になります。
I couldn't tell from the co. website and this article what the Eliyan NuLink advance is. Signaling? Packaging? Yes.@UCIexpress defines standard (organic pkg) and advanced (high density: bridge/interposer) package profiles and 32Gb/s/IO signaling.https://t.co/CtUdQgtCzU pic.twitter.com/dE6YNlmDB4
— Jan Gray (@jangray) 2023年4月5日