Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

GPGPUのL3 Cacheは、LLMの性能にどのような影響を与えるのか?

はじめに

NVIDIAの下記の論文を見直して、気が付きました。

GPGPUのL3 Cacheって、LLMの性能にどのような影響を与えるのか?

グラフを見てみたら、

下図は上記の論文の Figure 9 です。これを見ると、Trainingのところに、Transformerがありますが、Inferenceにはありません。

ということは、LLM Inference には、L3 Cache の効果はあまりないということなんでしょうね。

となると、

  • L3 Cache有 : LLM Training用
  • L3 Cache無 : LLM Inference用

としてプロダクトが作れますね。

この論文を書いていた時は、

  • L3 Cache有 : DL用
  • L3 Cache無 : HPC用

を想定していましたが、2022年11月の ChatGPT のリリースによって、HPC用なんてやるより、LLM Inference に使えるっぽいことになりそうですね。

そして、B100の妄想

おわりに

未来に何が起こるかは、わかりませんが、あまり儲からないと思っていたHPC用の構成が LLM Inference 用として大きな需要を生むことになれば、NVIDIAさん、一粒で2倍美味しい、グリコになりますね。。。