Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

AIバブルから生成AIバブルへ、Cloud学習チップのスタートアップは生き残れるか?

はじめに

昨年の9月に

vengineer.hatenablog.com

というブログを書きました。

SambaNova Systems, Graphcore, Cerebras Ssytems は、TSMC 7nmで半導体を開発していて、次は 5nm/4nm ではなく、3nm に移行するか?という点を考えました。 ( GroqとTenstorrentは、TSMCではなく、Global Foundries の 12nm/14nm)

この時点ではまだChatGPTが出ていなかったです。

AIバブルが生成AIバブルへ

ChatGPTが出て、期待以上の成果が出ているということで、世界中が生成AIにフルベットするような流れになりました。

その為、NVIDIAGPU (A100, H100) への需要が高まり、オーダーしてもいつ納品されるかもわからない状況のようです。

下記のツイートでは、Cloud用学習チップのスタートアップがGPUが不足のために売り込んでいますという話をしています。 しかしながら、A100はともかく、スタートアップのチップに対してはH100は性能が大幅に改善されているのを考えていないということを

A100はTSMC 7nm、H100はTSMC 4nm。この違いは大きいです。おまけにメモリはHBM2eからHBM3です。

LLM(Large Language Model) では、計算力だけではなく、大規模なメモリが必要です。いくつものシステムをネットワークで接続する必要があります。

DGX H100ベースのDGX H100 SUPERPODは、32台のDGX H100を接続しています。H100なのでメモリは80GBになり、256 x 80 = 20TBのメモリがGPUからアクセスできます。

DGX H100 では、各GPU間は NVLink v4で接続されています。NVLink v4 では1リンク50GB/sで接続しています。50GB/s(片側だと25GB/s) とは 400GbEと同じぐらいの転送帯域です。H100では、NVLinkv4 を18リンク外に出せて、NVSwitch v3 にて他のDGX H100と接続しています。DGX H100からは72リンクが外に出ていています。一方、DGX A100では、DGX A100内ではNVLink v3(50GB/s x 12リンク)でGPUを接続していますが、DGX A100間はInfiniband(200Gps=25GB/s)を介して接続しています。。DGX A100ではInfinibandの200Gbpsを4本持っているので、25GB/s x 4 = 100GB/sがノード間の転送帯域になります。DGX H100では、25GB x 72 = 1800GB/s(1.8TB)になりますので、DGX A100に対して18倍速いです。

現在のLLMでは、GPT 3.0で175Bパラメータ、GPT 3.5で355Bパラメータです。DGX H100 SUPERPODでは、20TBなので2桁違いがあります。

つまり、NVIDIA A100ベースのシステムに比べて、H100ベースのシステムは計算機としての性能だけでなく、GPUがアクセスできるメモリ容量、ノード間の転送帯域が大きいというになります。

なので、スタートアップのシステムを導入する場合、DGX A100に対しては Yes としても、DGX H1000に対しては No と言えるでしょう!

GH200

先日発表された NVIDIA DGX GH200。DGX GH200は、DGX H100 SUPERPODに比べて、GPUであるHopperの数は同じですが、GPUがアクセスできるメモリ容量が大幅に増えました。GH200は、CPUであるGraceには512GBのLPDDR5Xメモリ(内、480GB使用可能)、GPUであるHopperには96GBのHBM3メモリ(GPU単体であるH100のメモリは80GBのHBM3です。GH200のHopperはH100の1.25倍メモリを搭載しています)で合計608GBのメモリがあります。DGX GH200では256個まで接続できるので、144TB = 256 x 543.3GB がGPUからアクセスできます。DGX H100 SUPERPODの20TBに対して、155TBと約6倍になっています。

おわりに

AIバブルによって、何が変わったのか?を考えると、インターネット(ブラウザ)、スマホに対しては大きなインパクトはなかったのでは?と個人的には思っています。 生成AIバブルによって、大きなインパクトを与えられると思い、世界中がフルベットしているわけですが、ITバブルの時のことを考えると本当にそうなるのかな?と思っています。

結局、計算機としては、NVIDIAの一人勝ちになるのでは?と思っています。。

ちょっと前に、Appleが超盛り上がりした。。。2021年にスマホがピークを迎え、2022年に下向きになり、Appleの勢いはかなりなくなってきています。

下図は、Appleの直近5年の株価の推移です。2021年後半からは大きな変化は特になく見えます。

下図は、NVIDIAの直近5年の株価の推移です。パンデミックから徐々に上がり、2021年11月にいったんピークになり、その後、下降し、2022年10月、ピークの1/3まで値を下げ、そこから再び上昇し、先日は発表で一気に上がり、2021年のピークの値を超えました。。。

さあ、生成AIバブル、、どのくらい続くのでしょうか?

それまで、Cloud用学習チップのスタートアップは生き残れるでしょうか。。。。