はじめに
NVIDIA が TensorRT-LLM を発表しました。
TensorRT-LLM
現時点では、
- Early access is now available for download.
のようです。
下記の図は、TensorRT-LLMのアナウンス記事から説明のために引用します。GPT-J-6B において、8月の時点の2倍の性能になったようです。
Llama 2 70B では、1.77倍強になったようです(TensorRT-LLMのアナウンス記事から説明のために引用します)
TensorRT
TensorRT は、9.0.1 なので、これとは違うものとして、TensorRT-LLM が出てくるんですね。
おわりに
TensorRT-LLM
何をして、2倍速くしたんでしょうかね。