はじめに
AIバブルが終わると思いきや、OpenAIのChatGPTが2022年11月にリリースされたことにより、別のバブルである生成AIバブルが発生。
生成AIバブルは、AIバブルより遥かに大きくなっています。
そんな中で、Cloud用AI Chip を開発している
- Cerebras Systems
- SambaNova Systems
が 生成AI推論にPIVOTしたようですね。
The Nextplatform の記事
下記の The NextPlatform にもそのようなことが書かれています。
LLM推論超絶速いGroq に対して、Cerebras Systemsは、Llama3.1-70B 推論にて
- Cerabras Systems : 450 Tokens/s/user
- Groq : 250 Tokens/s/user
とかなり速いぞ。と主張しています。上記の記事から説明のために引用します。
9月11日にLlama 3.1 70B: API Provider Benchmarking & Analysis を見てみたら
- SamvaNova Systems : 452 Tokens/s/user
- Cerabras Systems : 445 Tokens/s/user
- Groq : 250 Tokens/s/user
こちらのXの投稿では、private endpoint では、
- Groq : 544 Tokens/s/user (private endpoint)
になっていますね。
More speed on our existing 14nm silicon.
— sunny madra (@sundeep) 2024年9月10日
GA soon.
Reach out if you want to go fast! pic.twitter.com/nmgKusqxYC
下図は、上記の記事から、説明のために引用します。規模感がわかりますね。1ラック、$1M - $2M ぐらいですかね。
おわりに
生成AIバブル、いつ終わるのでしょうか?
生成AIそのものは、大昔の IT、Web, スマホ と同じように10年単位で見ると確実に無くてはならないものになりますが、今のような幾らでもお金投入するぞ!とはならないと思います。 結局、通常のオペレーションにて、コスパがよくないと使われないと思います。。。
さあ、どうなることやら。