Mobile from Facebook
tensorflow提供一个python库tensorflow_model_optimization,这个库优化模型的延迟,大小.直观上,优化模型大小,一个就是优化参数的数量...Compression or Distillation
模型训练完成后,如何在准确率可接受的情况下压缩模型,最常见的方式就是剪枝和蒸馏....Quantisation
该方法用低精度的参数去学习一个同样效果的模型,这种方式提升了模型的处理能力和效率.这种方法主要是把float压缩到int8上,如下图所示:
Quantisation Aware...Post-Training Quantisation (PTQ) 该方法不用重训练模型,直接把float32量化到int8,这样直接把模型大小降低了4倍,预估性能也提升了两倍,精度也没有显著下降....Compilation
剩下的就是工程上的优化了,如使用C++,相较于python更快更省内存.