NVIDIAのTensorRT 3 - Vengineerの戯言

FP32をFP16やINT8に変換してくれるみたい。

この記事によると

　ミガシズ氏によれば、
　このアルゴリズムでFP32をINT8に変換して実行したとしても、
　推論の正確性はほぼ変わりないか、むしろよいという結果になっているのだという。
　また、そのパフォーマンスでは、どのCNNを利用するかによるが、
　概ね2.5～3倍程度の結果がでるということだ。

つまり、学習ではFP32で行って、推論はTensorRTにてFP32=>INT8すれば、OK！と。

ちなみに、TensorFlowでも同じようなことができるようです。
詳細は、こちら。
How to Quantize Neural Networks with TensorFlow