Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Alibabaのクラウド用推論チップ:含光800

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった

36kr.jp

いや、凄い。。凄すぎる。。。

張CTOによると、含光800はResNet-50(画像認識ニューラルネットワーク)上の試験で最高7万8563 IPS(秒あたりの画像取り込み数)の推論パフォーマンスを叩き出した。これは現段階で業界最高性能とされるAIチップの4倍の数字だ。エネルギー消費効率は500IPS/Wで、現行首位の製品と比較して3.3倍の性能を持つ。

 78563 images / 秒 ですよ。。。

Intelが5月に発表した資料:インテル® CPU が ResNet-50 ディープラーニング推論で NVIDIA* GPU を凌駕 によると、

インテルは、ディープラーニングのワークロードを加速するため、近年ハードウェアとソフトウェアの両方を急速に進化させてきました。最新のインテル® Xeon® スケーラブル・プロセッサーを搭載した ResNet-50 上で毎秒 7878 画素のパフォーマンス・リーダーシップを達成し、NVIDIA* Tesla* V100 上の毎秒 7844 画素 (T4 を含む NVIDIA* 社のウェブサイトで公開されている最高の GPU パフォーマンス) を上回ることができました。

 なので、Xeon で 7878 images / 秒、NVIDIA Tesla V100 7844 images / 秒

ざっくり 10 倍。。。

 Alibabaのプレスリリース(日本語版)

中国語の詳しいブログもありますね。 こっちの方が詳しいですね。

 

このツイートで知ったこのサイトのMachine Intelligence Summitの2時間51分ぐらいからプレゼンありました。

www.alibabacloud.com

対応フレームワークは、TensorFlow、MXNet、Caffe、ONNX

Converter => GraphIR => 量子化 => 最適化 => コンパイル

=> Runtime API => Executor => User Mode Driver => Kernel Mode Driver => Hardware

上記の記事の中はプレゼンテーション資料でも GPU 10個分って書いてありますね。。。V100って超お高いので、このチップ1つで数百万円分ですよ。おまけでV100を収めるシステムはもっと高いしね。。。

そんでもって、既に運用しているって。。。。

 

まー、クラウド用推論チップは、クラウドサービスをやっているところじゃないとうまく使えないし、たくさん使えないですからね。

 

TwitterのTLに流れてきた ボード の映像です。

自社内でしか使わないようなので箱がちょっと寂しいですね。

ボードにはメモリ載っていなのかな?チップのパッケージに載っているのかな?

サーバーには8機搭載されていますね。