Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Frontier (MI250X) で LLMを学習!

はじめに

Super computer の Frontier (MI250X) で LLM を学習した結果が出てきたようなので見てみます。

arxiv.org

175B Model となんと、1T Model

Super computer なので、GPUがいっぱいあります。なので、本当にでっかいモデルも学習できます。この論文で出てきたのは、

  • 22 G Parameter Model
  • 175 G Parameter Model
  • 1 T Parameter Model

Global Batch Size の違いによる、TFLOPSの関係。22Bに対して、1Tの方が Global Batch Size を大きくすると、TFLOPS がよくなりますね。

下図は 22B, 175B, 1T の TFLOPS の比較です。

Peak Performance は、191.5TFLOPS (1 die)です。MI250Xのメモリは HBM2e-64GB (1 die)。

  • 22B : 73.5, 38.38%
  • 175B : 69.2, 36.14%
  • 1T : 61.2, 31.96%

Percentage Throughput って、30%台なんですね。

おわりに