2020-06-27

Intelの Intel® Advisor’s Flow Graph Analyzer

@Vengineerの戯言 : Twit ter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

Fantastic step-by-step article to learn how to design and analyze Intel TBB flow graphs with #IntelAdvisor's Flow Graph Analyzer. https://t.co/ml0V4zOzkO

#oneAPI
— Software Dev Tools (@IntelDevTools) 2020年4月30日

によると、Intel Advisor には、Flow Graph Analyzer という機能があるとか。。。

これ、10年ぐらい前に欲しかったわ。。。こういうの使って、どこがどうなっているかを可視化して、ボトルネックを見つけたかったわ。。。

Flow Graph Analyzerは、こちら。

software.intel.com

Flow Graphは、Intel TBB の Flow Graph を使うみたい。

software.intel.com

この Flow Graph も 10年ぐらい前に欲しかったわ。

2020-06-26

Ansor: An Auto-scheduler for TVM (AutoTVM v2.0)

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

「Auto-scheduler for TVM」のLianmin Zhengさんから Ansor(AutoTVM v2.0)の提案

discuss.tvm.ai

現在の AutoTVM の問題点

The templates are hard to write. It takes a great number of engineering efforts to develop these templates.
The number of required templates is large and continues to grow as new operators come.
The templates are far from optimal. There is still huge opportunity for performance improvements by enlarging the search space in templates, but manually enumerating these optimizations choices is prohibitive.

を解決するために、Ansor では下記のことをやっているようです。

Ansor automatically generates a much larger search space from compute declaration only
Ansor searches more efficiently than AutoTVM by utilizing improved cost model, evolutionary search and task scheduler

論文は、Ansor : Generating High-Performance Tensor Programs for Deep Learning

論文のベンチマークを見る限り、かなり速くなりそう。

2020-06-25

glow：TensorFlow Lite importerが追加されるし、Intel NNP-Iの開発は継続されている

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

理由はよくわからないのですが、Facebook のクラウド用推論のためのフレームワークである glow に TensorFlow Lite importer が追加されました。

github.com

この時点では、125個の TensorFlow Lite の Op の内、57個をサポートしているようです

これにて、ONNX、Caffe2、そして、TensorFlow Lite をサポートしたことになり、推論用であれば十分なんでしょうか？

それから、開発が中止されたがカスタマーが居ることでサポートが継続されている Intel NNP-Iですが、glow の中でも開発はまだやっているようです。

github.com

このコードみると、

BB.newNode("NNPICustomDSP")
.addMember(MemberType::VectorNodeValue, "Inputs")
.addResultFromCtorArg() // for now use single output
.addInput("KernelParams") // paramsblob
.addInput("WalkConfig") // NNPIWalkConfig
.addMember(MemberType::Unsigned, "PrivateAreaSize")
.addMember(MemberType::String, "KernelName")
.addMember(MemberType::Int64, "ICERefCallback") // NNPIDspIceRefCallback*
.setDocstring("This is an experimental NNPI-specific node representing a "
"custom DSP op");

BB.newNode("NNPICustomIA")
.addMember(MemberType::VectorNodeValue, "Inputs")
.addResultFromCtorArg() // for now use single output
.addMember(MemberType::String, "KernelName")
.addMember(MemberType::String, "IAPath")
.setDocstring("This is an experimental NNPI-specific node representing a "
"custom IA op");

みたいのがあって、DSPで動くノードと、IA(x86-64)で動くノードがあるのね。

2020-06-24

OctoML主催の Apache TVM meetup

参加者も登場しています。基本的には、OctlML のメンバーがいろいろお話しています。

youtu.be

アジェンダは、

uTVM Today
Upcoming RFCs
uTVM Portability
uTVM CI
Future Work
uTVM Roadmap
Standalone Model Execution
Quantization Improvements
Q & A and Discussion

です。

uTVM に関してはこのブログでも6月19日に紹介しました。

どうやら、OctoML、uTVM にかなりリソースをかけてそうですね。。。

vengineer.hatenablog.com

こちらのビデオも同じかしら。最初に始まる前のものが付いている感じ？

2020-06-23

TensorFlow Liteに、なんか、追加されている

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった

TensorFlow Liteのexperimentalに、

「Accelerator whitelisting」

なるものがアップされていた。

github.com

TensorFlow Delagateがいっぱいあるんですが、微妙にAPIが違うんです。

ということで、

NNAPI
GPU
Hexagon

に関しては、同じAPIで引数の文字列で切り替えるようにしたもの。

この3つということは、Snapdragonのスマホ用なのかな。。。。

void CreateDelegate(flatbuffers::Offset<NNAPISettings> settings) {
settings_ = flatbuffers::GetTemporaryPointer(
fbb_, CreateTFLiteSettings(fbb_, tflite::Delegate_NNAPI, settings));

plugin_ = delegates::DelegatePluginRegistry::CreateByName("NnapiPlugin",
*settings_);
delegate_ = plugin_->Create();
}

こんな感じで Delegate を生成するのね。名前は、クラス名の模様。