Joint Training and distillation って？

どうやら「モデルの圧縮」に関するもの。Learn2Compressでは、次の3つをアプローチをとるようですね。

　・Pruning
　・Quantization
　・Joint training and distillation

最初のPruning(剪定)は、無くても精度が大きくても変わらない枝(接続)を刈っていくもの。
二番目のQuantization(量子化)は、データやパラメータのサイズを32ビットから16ビットや8ビットにすること。

で、最後の Joint Training and distillation って、何？

で、最後の「Joint Training and distillation」って、どうやるのだろうか？

Vengineerの妄想