はじめに

昨年の9月に

vengineer.hatenablog.com

というブログを書きました。

SambaNova Systems, Graphcore, Cerebras Ssytems は、TSMC 7nmで半導体を開発していて、次は 5nm/4nm ではなく、3nm に移行するか？という点を考えました。 ( GroqとTenstorrentは、TSMCではなく、Global Foundries の 12nm/14nm)

この時点ではまだChatGPTが出ていなかったです。

AIバブルが生成AIバブルへ

ChatGPTが出て、期待以上の成果が出ているということで、世界中が生成AIにフルベットするような流れになりました。

その為、NVIDIAのGPU (A100, H100) への需要が高まり、オーダーしてもいつ納品されるかもわからない状況のようです。

下記のツイートでは、Cloud用学習チップのスタートアップがGPUが不足のために売り込んでいますという話をしています。しかしながら、A100はともかく、スタートアップのチップに対してはH100は性能が大幅に改善されているのを考えていないということを

I've now heard numerous startups pitch that they are needed because of the GPU shortage.
Bruh, you realize Nvidia is gonna ship more datacenter GPU FLOPS this year then existed total pre-2023?
Do the math on shipments + H100 perf uplift
Very weak argument given scale of ramp.
— Dylan Patel (@dylan522p) 2023年6月8日

A100はTSMC 7nm、H100はTSMC 4nm。この違いは大きいです。おまけにメモリはHBM2eからHBM3です。

LLM(Large Language Model) では、計算力だけではなく、大規模なメモリが必要です。いくつものシステムをネットワークで接続する必要があります。

DGX H100ベースのDGX H100 SUPERPODは、32台のDGX H100を接続しています。H100なのでメモリは80GBになり、256 x 80 = 20TBのメモリがGPUからアクセスできます。

DGX H100 では、各GPU間は NVLink v4で接続されています。NVLink v4 では1リンク50GB/sで接続しています。50GB/s(片側だと25GB/s) とは 400GbEと同じぐらいの転送帯域です。H100では、NVLinkv4 を18リンク外に出せて、NVSwitch v3 にて他のDGX H100と接続しています。DGX H100からは72リンクが外に出ていています。一方、DGX A100では、DGX A100内ではNVLink v3(50GB/s x 12リンク)でGPUを接続していますが、DGX A100間はInfiniband(200Gps=25GB/s)を介して接続しています。。DGX A100ではInfinibandの200Gbpsを4本持っているので、25GB/s x 4 = 100GB/sがノード間の転送帯域になります。DGX H100では、25GB x 72 = 1800GB/s(1.8TB)になりますので、DGX A100に対して18倍速いです。

現在のLLMでは、GPT 3.0で175Bパラメータ、GPT 3.5で355Bパラメータです。DGX H100 SUPERPODでは、20TBなので2桁違いがあります。

つまり、NVIDIA A100ベースのシステムに比べて、H100ベースのシステムは計算機としての性能だけでなく、GPUがアクセスできるメモリ容量、ノード間の転送帯域が大きいというになります。

なので、スタートアップのシステムを導入する場合、DGX A100に対しては Yes としても、DGX H1000に対しては No と言えるでしょう！

GH200

先日発表された NVIDIA DGX GH200。DGX GH200は、DGX H100 SUPERPODに比べて、GPUであるHopperの数は同じですが、GPUがアクセスできるメモリ容量が大幅に増えました。GH200は、CPUであるGraceには512GBのLPDDR5Xメモリ(内、480GB使用可能)、GPUであるHopperには96GBのHBM3メモリ(GPU単体であるH100のメモリは80GBのHBM3です。GH200のHopperはH100の1.25倍メモリを搭載しています)で合計608GBのメモリがあります。DGX GH200では256個まで接続できるので、144TB = 256 x 543.3GB がGPUからアクセスできます。DGX H100 SUPERPODの20TBに対して、155TBと約6倍になっています。

おわりに

AIバブルによって、何が変わったのか？を考えると、インターネット(ブラウザ)、スマホに対しては大きなインパクトはなかったのでは？と個人的には思っています。生成AIバブルによって、大きなインパクトを与えられると思い、世界中がフルベットしているわけですが、ITバブルの時のことを考えると本当にそうなるのかな？と思っています。

結局、計算機としては、NVIDIAの一人勝ちになるのでは？と思っています。。

ちょっと前に、Appleが超盛り上がりした。。。2021年にスマホがピークを迎え、2022年に下向きになり、Appleの勢いはかなりなくなってきています。

下図は、Appleの直近5年の株価の推移です。2021年後半からは大きな変化は特になく見えます。