はじめに
NVIDIA -san
推論用のTensorRTに、LLM専用のパッケージをリリースしました。
サポートデバイス
上記のgithub.comのREADME.mdによると、サポートデバイスは、
- H100
- L40S
- A100/A30
- V100 (experimental)
で、基本的にはお高いGPUのみです。
Precisionについては、
- FP32
- FP16
- BF16 (Volta, Turingは除く)
- FP8 (Volta, Turing, Amperaは除く)
- INT8
- INT4
をサポートしています。
あれ、Turing も入っていますね。。。
既に色々なモデルも用意されています。
Performance
H100/A100 での性能が載っています。
Windows もサポート
Windows もサポートしているようです。CUDA 12.2 Toolkit を使うようです。そして、Microsoft MPI も使うようです。
Open GPU
こちらが対応版です。
おわりに
NVIDIA -san も 推論用LLM対応をしてきましたね。
関連記事