Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

各社Cloud AcceleratorのMLPerf v0.5のInference性能

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった

MLPerf v0.5のInferenceのベンチマーク値に、Intel NNP-Iの値もありました。

www.mlperf.org

ImageNet ( ResNet-50 v1.5 ) の Offline の値

  • Alibaba HanGuangでは、69,306.6
  • Cloud TPU v3では、32,716.00
  • Habanaの HL-102-Goya PCI-board では、14,451.00
  • 2個の NNP-I 、10,567.20

ちなみに、CPUとGPUでは、6000未満。NNP-Iって、速くないですね。ただし、デバイスが小さいので PCIe ボードには、4枚ぐらい刺せそう。そうなると、20000超える。

  • Intel® Xeon® Platinum 9200 processors では、5,965.62
  • Alibaba Cloud T4 (NVIDIAのT4)では、5,540.10
  • SCAN 3XS DBP T496X2 Fluid (TitanRTXx4)では、66,250.40

 

Titan RTX1台で16 562.6なので、Habana Goyaより速いですね。

 

Huaweiのデバイスは載っていませんね。。。

こうやって、同じものを比較した場合、新規参入したデバイスは既存のデバイス(x86 CPUやNVIDIAGPU)と比べて、倍以上の性能がでていないと導入されないでしょうね。

HabanaのGoyaのPCIeカードを1枚と Titan RTX 1枚と比べると、やっぱり、Titan RTXを買いますよね。

Cloud Acceleratorの場合は、クラウドベンダーが買うものなのでクラウドでの運用費全判を考えたうえで導入するので、ベンチマークだけではないでしょうが。

 

Alibaba HanGuangって、Cloud TPU v2 の2個分というのは凄いいですね。