はじめに

Super computer の Frontier (MI250X) で LLM を学習した結果が出てきたようなので見てみます。

175B Model となんと、1T Model

Super computer なので、GPUがいっぱいあります。なので、本当にでっかいモデルも学習できます。この論文で出てきたのは、

Global Batch Size の違いによる、TFLOPSの関係。22Bに対して、1Tの方が Global Batch Size を大きくすると、TFLOPS がよくなりますね。

下図は 22B, 175B, 1T の TFLOPS の比較です。

Peak Performance は、191.5TFLOPS (1 die)です。MI250Xのメモリは HBM2e-64GB (1 die)。

Percentage Throughput って、30％台なんですね。