Vengineerの妄想

人生を妄想しています。

Tuningって、INT4やINT1が使えるのね。。。



Tuningって、INT4やINT1が使えるんですね。最近、おさぼりしています。

それから、half も half2 とかも追加されていると。。。

ということは、half2 を使うようにfp16のコードを変えたり(これはcuDNNやTensorRTでは勝手にやってくれる)、
INT4やINT1を使えば、速くなるということですかね。。。。

TensorRTは、INT8までは勝手にやってくれるようですね。

NVIDIA AI INFERENCE PLATFORMの6ページに、下記のようにありますね。
    Turing Tensor Cores not only provide FP16/FP32 mixed-precision matrix math like Volta Tensor Cores; 
    they also add new INT8 and INT4 precision modes, 
    massively accelerating a broad spectrum of deep learning inference applications.


    Turing also includes experimental features such as support for INT4 and INT1 formats 
    to further research and development in deep learning.