はじめに

推論用のTensorRTに、LLM専用のパッケージをリリースしました。

サポートデバイス

上記のgithub.comのREADME.ｍdによると、サポートデバイスは、

で、基本的にはお高いGPUのみです。

Precisionについては、

をサポートしています。

あれ、Turing も入っていますね。。。

既に色々なモデルも用意されています。

H100/A100 での性能が載っています。

Windows もサポートしているようです。CUDA 12.2 Toolkit を使うようです。そして、Microsoft MPI も使うようです。

こちらが対応版です。

NVIDIA -san も推論用LLM対応をしてきましたね。