Tuningって、INT4やINT1が使えるのね。。。

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

Volta & Turing: Architecture and Performance optimizationで知りました。

Tuningって、INT4やINT1が使えるんですね。最近、おさぼりしています。

それから、half も half2 とかも追加されていると。。。

ということは、half2 を使うようにfp16のコードを変えたり(これはcuDNNやTensorRTでは勝手にやってくれる)、
INT4やINT1を使えば、速くなるということですかね。。。。

TensorRTは、INT8までは勝手にやってくれるようですね。

NVIDIA AI INFERENCE PLATFORMの6ページに、下記のようにありますね。

    Turing Tensor Cores not only provide FP16/FP32 mixed-precision matrix math like Volta Tensor Cores; 
    they also add new INT8 and INT4 precision modes, 
    massively accelerating a broad spectrum of deep learning inference applications.


    Turing also includes experimental features such as support for INT4 and INT1 formats 
    to further research and development in deep learning.

Vengineerの妄想

人生を妄想しています。

Tuningって、INT4やINT1が使えるのね。。。