@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった
いや、凄い。。凄すぎる。。。
張CTOによると、含光800はResNet-50(画像認識ニューラルネットワーク)上の試験で最高7万8563 IPS(秒あたりの画像取り込み数)の推論パフォーマンスを叩き出した。これは現段階で業界最高性能とされるAIチップの4倍の数字だ。エネルギー消費効率は500IPS/Wで、現行首位の製品と比較して3.3倍の性能を持つ。
78563 images / 秒 ですよ。。。
Intelが5月に発表した資料:インテル® CPU が ResNet-50 ディープラーニング推論で NVIDIA* GPU を凌駕 によると、
インテルは、ディープラーニングのワークロードを加速するため、近年ハードウェアとソフトウェアの両方を急速に進化させてきました。最新のインテル® Xeon® スケーラブル・プロセッサーを搭載した ResNet-50 上で毎秒 7878 画素のパフォーマンス・リーダーシップを達成し、NVIDIA* Tesla* V100 上の毎秒 7844 画素 (T4 を含む NVIDIA* 社のウェブサイトで公開されている最高の GPU パフォーマンス) を上回ることができました。
なので、Xeon で 7878 images / 秒、NVIDIA Tesla V100 7844 images / 秒
ざっくり 10 倍。。。
中国語の詳しいブログもありますね。 こっちの方が詳しいですね。
このツイートで知ったこのサイトのMachine Intelligence Summitの2時間51分ぐらいからプレゼンありました。
対応フレームワークは、TensorFlow、MXNet、Caffe、ONNX
Converter => GraphIR => 量子化 => 最適化 => コンパイル
=> Runtime API => Executor => User Mode Driver => Kernel Mode Driver => Hardware
上記の記事の中はプレゼンテーション資料でも GPU 10個分って書いてありますね。。。V100って超お高いので、このチップ1つで数百万円分ですよ。おまけでV100を収めるシステムはもっと高いしね。。。
そんでもって、既に運用しているって。。。。
まー、クラウド用推論チップは、クラウドサービスをやっているところじゃないとうまく使えないし、たくさん使えないですからね。
TwitterのTLに流れてきた ボード の映像です。
自社内でしか使わないようなので箱がちょっと寂しいですね。
ボードにはメモリ載っていなのかな?チップのパッケージに載っているのかな?
サーバーには8機搭載されていますね。
Cool sight of the Alibaba NPU units 🤤 #ApsaraConference2019 pic.twitter.com/wbIs9kydHE
— Alberto Roura 艾伯特 (@roura356a) September 25, 2019