TensorRT 4.0 - Vengineerの戯言

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

NVIDIA Expands Its Deep Learning Inference Capabilities for Hyperscale Datacentersによると、
NVIDIAは、TensorRT 4.0をアナウンスしました。

今までは、3.0.4 。

ただし、現時点では、RC。

ハイライトを引用します
　・45x higher throughput vs. CPU with new layers for Multilayer Perceptrons (MLP) 
                                                  and Recurrent Neural Networks (RNN)

　・50x faster inference performance on V100 vs. CPU-only 
                                     for ONNX models imported with ONNX parser in TensorRT

　・Support for NVIDIA DRIVE™ Xavier - AI Computer for Autonomous Vehicles

　・3x inference speedup for FP16 custom layers with APIs for running on Volta Tensor Cores

ONNXモデルは、CPUでの実行に比べて、V100だと、50倍だって。

また、Xavier もサポートするって。

そんでもって、Volta Tensor Coresを使うと、FP16のカスタムレイヤーの推論は3倍だって。って、カスタムレイヤーって何？