FP32をFP16やINT8に変換してくれるみたい。
この記事によると
ミガシズ氏によれば、 このアルゴリズムでFP32をINT8に変換して実行したとしても、 推論の正確性はほぼ変わりないか、むしろよいという結果になっているのだという。 また、そのパフォーマンスでは、どのCNNを利用するかによるが、 概ね2.5~3倍程度の結果がでるということだ。
つまり、学習ではFP32で行って、推論はTensorRTにてFP32=>INT8すれば、OK!と。