Tuningって、INT4やINT1が使えるんですね。最近、おさぼりしています。
それから、half も half2 とかも追加されていると。。。
ということは、half2 を使うようにfp16のコードを変えたり(これはcuDNNやTensorRTでは勝手にやってくれる)、
INT4やINT1を使えば、速くなるということですかね。。。。
INT4やINT1を使えば、速くなるということですかね。。。。
TensorRTは、INT8までは勝手にやってくれるようですね。
NVIDIA AI INFERENCE PLATFORMの6ページに、下記のようにありますね。
Turing Tensor Cores not only provide FP16/FP32 mixed-precision matrix math like Volta Tensor Cores; they also add new INT8 and INT4 precision modes, massively accelerating a broad spectrum of deep learning inference applications. Turing also includes experimental features such as support for INT4 and INT1 formats to further research and development in deep learning.