Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIA : TensorRT-LLM

はじめに

NVIDIA -san

推論用のTensorRTに、LLM専用のパッケージをリリースしました。

github.com

サポートデバイス

上記のgithub.comのREADME.mdによると、サポートデバイスは、

  • H100
  • L40S
  • A100/A30
  • V100 (experimental)

で、基本的にはお高いGPUのみです。

Precisionについては、

  • FP32
  • FP16
  • BF16 (Volta, Turingは除く)
  • FP8 (Volta, Turing, Amperaは除く)
  • INT8
  • INT4

をサポートしています。

あれ、Turing も入っていますね。。。

既に色々なモデルも用意されています。

Performance

github.com

H100/A100 での性能が載っています。

Windows もサポート

Windows もサポートしているようです。CUDA 12.2 Toolkit を使うようです。そして、Microsoft MPI も使うようです。

Open GPU

こちらが対応版です。

github.com

おわりに

NVIDIA -san も 推論用LLM対応をしてきましたね。

関連記事

pc.watch.impress.co.jp