, 所以更多量化的时候需要做好精度和性能的权衡.工业界一般使用int8量化, 在模型推理前需要把FP32映射为int8进行计算, 然后在输出的时候做一个去量化操作, 把计算的int8结果映射回FP32....非均匀量化: 动态范围的划分不均匀, 一般用类似指数的曲线进行量化或者使用Kmeans对网络权重和特征进行聚类,得到不同的聚类中心,然后将聚类中心作为同一簇权重的量化代表。...2.4 训练后量化PTQ(1) 定义在模型训练好后量化, 量化其实就是权重和激活值进行缩放的过程,在PTQ中, 我们是通过统计的方法, 使用Calibration Dataset来近似模拟现实的数据分布..., 从而得到权重和激活值的动态范围(Gather layer statistics) 和量化参数(q-parms), 以此来对我们的权重和激活值进行合理的缩放。...由于存在离散点噪声的原因, Nvidia在对激活值量化时, 不再是基于最大值进行缩放, 而是找一个阈值|T|, 以此来控制量化的float范围, 避免离散点噪声被放大,通过前面的介绍我们也知道这种方法叫做饱和量化