Vengineerの妄想

人生を妄想しています。

NVIDIA TensorRT-LLM

はじめに

NVIDIA が TensorRT-LLM を発表しました。

developer.nvidia.com

developer.nvidia.com

TensorRT-LLM

現時点では、

  • Early access is now available for download.

のようです。

下記の図は、TensorRT-LLMのアナウンス記事から説明のために引用します。GPT-J-6B において、8月の時点の2倍の性能になったようです。

Llama 2 70B では、1.77倍強になったようです(TensorRT-LLMのアナウンス記事から説明のために引用します)

TensorRT

TensorRT は、9.0.1 なので、これとは違うものとして、TensorRT-LLM が出てくるんですね。

おわりに

TensorRT-LLM

何をして、2倍速くしたんでしょうかね。