Twitterで流れてきエッジデバイス推論向けのTensorFlow最適化を掘り下げてみる #GoogleMLSummitを読んだら、
知らないCustom On-Device ML Models with Learn2Compressなるものがあることを知った。
知らないCustom On-Device ML Models with Learn2Compressなるものがあることを知った。
どうやら「モデルの圧縮」に関するもの。Learn2Compressでは、次の3つをアプローチをとるようですね。
・Pruning ・Quantization ・Joint training and distillation
最初のPruning(剪定)は、無くても精度が大きくても変わらない枝(接続)を刈っていくもの。
二番目のQuantization(量子化)は、データやパラメータのサイズを32ビットから16ビットや8ビットにすること。
二番目のQuantization(量子化)は、データやパラメータのサイズを32ビットから16ビットや8ビットにすること。
で、最後の Joint Training and distillation って、何?
日本語でのおまとめ:オンデバイス用に機械学習モデルを圧縮するLearn2Compress
で、最後の「Joint Training and distillation」って、どうやるのだろうか?