. 1.2 定义模型量化是指把模型的参数从FP32映射到nbit位的过程, 简单来说就是在定点数与浮点数等数据之间建立一种数据映射关系, 使得以较小的精度损失代价获得了较好的收益。...,内存耗用少了推理速度快了自然减少了设备功耗支持微处理器,有些微处理器属于8位的,低功耗运行浮点运算速度慢,需要进行8bit量化1.4 挑战定点数/FP16表示范围和精度完全不同明显比FP32小, 如果使用...(2) 量化的过程使用校准数据集, 这个数据集要经可能具有多样性, 有代表性, 理想情况下是验证数据集的子集, 对已经预训练好的模型的每一个layer进行统计。..., , 这种情况下如果直接使用不饱和量化的话, 就会把离散点噪声给放大从而影响模型的精度.不同模型的不同层的分布差异也非常大, 所以需要对每个模型的每一层都有一个阈值这种量化方式叫做逐层量化, 也可以对每一层每个通道都进行独立量化...会无穷大,这就好比一个分布(X)认为某个事件可能发生只是概率值小,但是另外一个分布(Y)却认为该事件不可能发生,因此这两 个分布是语义上时完全互斥的, KL大也很正常.