Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

NVIDIAのTensorRT 3





FP32をFP16やINT8に変換してくれるみたい。

この記事によると
 ミガシズ氏によれば、
 このアルゴリズムでFP32をINT8に変換して実行したとしても、
 推論の正確性はほぼ変わりないか、むしろよいという結果になっているのだという。
 また、そのパフォーマンスでは、どのCNNを利用するかによるが、
 概ね2.5~3倍程度の結果がでるということだ。

つまり、学習ではFP32で行って、推論はTensorRTにてFP32=>INT8すれば、OK!と。

ちなみに、TensorFlowでも同じようなことができるようです。
詳細は、こちら。
How to Quantize Neural Networks with TensorFlow