はじめに
Super computer の Frontier (MI250X) で LLM を学習した結果が出てきたようなので見てみます。
175B Model となんと、1T Model
Super computer なので、GPUがいっぱいあります。なので、本当にでっかいモデルも学習できます。この論文で出てきたのは、
- 22 G Parameter Model
- 175 G Parameter Model
- 1 T Parameter Model
Global Batch Size の違いによる、TFLOPSの関係。22Bに対して、1Tの方が Global Batch Size を大きくすると、TFLOPS がよくなりますね。
下図は 22B, 175B, 1T の TFLOPS の比較です。
Peak Performance は、191.5TFLOPS (1 die)です。MI250Xのメモリは HBM2e-64GB (1 die)。
- 22B : 73.5, 38.38%
- 175B : 69.2, 36.14%
- 1T : 61.2, 31.96%
Percentage Throughput って、30%台なんですね。