大模型应用：通俗理解大模型量化：从概念到实践的原理流程完整拆解.38

原创

未闻花名

发布于 2026-03-07 08:27:13

1700

一、什么是大模型量化

1. 量化的本质

从我们日常接触的电脑存储开始理解，我们可以先回忆一下手机、电脑里的数据存储规则：大模型的核心是海量参数，可以理解为模型学到的知识，像一本超级厚的字典，这些参数在计算机里默认是用 32 位浮点数（FP32）存储的，简单说，就是用 32 个二进制位来记录一个数字，能精确表示很大范围的小数。

但这样我们会面临核心的问题：

一个百亿参数的大模型，用 FP32 存储，光参数就占几百 GB 的内存，普通电脑根本装不下；
模型运行时计算速度慢，推理一个句子要等半天，功耗还特别高。

量化的本质：把模型参数的“数据精度降低”，比如从 32 位降到 16 位、8 位，甚至 4 位、2 位。大模型量化就是牺牲一点点精度，换取模型体积缩小、运行速度提升、硬件门槛降低”的技术。

类比一下：我们原本用精密天平称东西，比如精确到 0.001 克，现在改用只能精确到 1 克的厨房秤，虽然精度降了，但秤更便宜、称重更快，日常做饭完全够用。

2. 量化的核心术语

2.1 全精度（FP32/FP16）

模型训练时的默认精度，FP32 精度最高，FP16 是半精度，体积和计算量减半。

FP32（单精度浮点数） 是深度学习模型训练的默认标准精度格式，采用32位（4字节）表示一个数值。其结构包含1位符号位、8位指数位和23位尾数位，能够表示大约±3.4×10³⁸范围的数值，精度可达6-9位有效数字。FP32的优势在于数值表示范围广、精度高，能够精确捕捉模型训练中微小的梯度变化，确保训练的稳定性和收敛性。几乎所有深度学习框架默认都使用FP32进行训练，它为模型提供了最精确的数值表示基础。
FP16（半精度浮点数） 则采用16位（2字节）表示，包含1位符号位、5位指数位和10位尾数位，表示范围约为±6.5×10⁴，精度约3-4位有效数字。相比FP32，FP16的内存占用和计算带宽需求都减少了一半，这使得训练速度和吞吐量显著提升，特别适合大规模模型训练。然而，FP16的数值范围较窄，容易出现梯度下溢（太小变为0）或上溢（太大变为无穷大）问题，因此在实际应用中常采用混合精度训练技术，即在关键计算如梯度累加时使用FP32，而在前向传播和反向传播中使用FP16，既保证了训练稳定性又提高了效率。

2.2 低精度（INT8/INT4/INT2）

量化后的精度，INT 代表整数，数字越小，精度越低，模型体积越小。

INT8（8位整数） 量化是目前应用最广泛的量化方案，将原本32位的浮点数转换为8位整数（范围-128到127），模型体积减少约75%，内存带宽需求降低4倍，同时整数运算在大多数硬件上比浮点运算快2-4倍。INT8量化的核心挑战是如何将浮点数的动态范围映射到有限的整数范围内，这通常通过校准过程确定缩放因子（Scale）和零点（Zero Point）来实现。INT8量化在保证精度损失可控（通常<1%）的前提下，显著提升了推理速度，已广泛应用于移动端和边缘设备的部署。
INT4和INT2 是更极端的量化方案，进一步将权重和激活值压缩到4位或2位整数。INT4量化可使模型体积减少87.5%，但精度损失较大，通常需要更复杂的量化策略如分组量化、混合精度分配等来维持可接受的精度。INT2量化则更为激进，模型体积减少93.75%，但精度损失显著，主要应用于对存储和计算资源极度受限的场景，或作为大模型缓存中的辅助表示。这些超低精度量化面临的主要挑战包括：数值表示范围极度有限、舍入误差累积效应明显、需要特殊的硬件支持，以及更复杂的校准和微调过程来补偿精度损失。

2.3 量化感知训练（QAT）

在模型训练阶段就考虑量化的影响，训练出本身就适合量化的模型，精度损失最小。

量化感知训练是一种前瞻性的量化策略，在模型训练阶段就模拟量化效应，使模型在学习过程中适应低精度表示。QAT的核心思想是在前向传播时模拟量化过程，将权重和激活值量化为低精度再反量化为浮点数，而反向传播时则使用直通估计器绕过量化操作的不可微问题。这种方法使模型在训练期间"感知"到量化带来的精度损失，并主动调整权重分布，从而在真正量化时最大限度地保持性能。
QAT的关键优势在于能够训练出对量化友好的权重分布，例如使权重分布更加均匀、减少极端值出现频率、使激活值分布更符合量化区间等。相比后训练量化，QAT通常能获得更低的精度损失（特别是在超低精度设置下），但代价是需要额外的训练时间和计算资源。QAT特别适用于以下场景：对推理速度要求极高、部署环境计算资源有限、模型压缩率要求高（如INT4或更低精度），以及模型原本对量化敏感的情况。

2.4 后训练量化（PTQ）

对已经训练好的模型直接做量化，不用重新训练，操作简单，适合初次接触和快速部署。

后训练量化是一种无需重新训练的量化方法，直接对已训练好的全精度模型进行量化转换。PTQ的核心流程包括：首先使用代表性校准数据集（通常数百到数千样本）运行模型，收集各层激活值的统计信息（最小值、最大值、分布直方图等）；然后基于这些统计信息计算每层的量化参数（缩放因子和零点）；最后将模型权重转换为低精度表示，并生成量化模型。
PTQ的主要优点是简单高效，无需额外的训练过程，通常在几分钟到几小时内即可完成，特别适合快速部署和模型轻量化。根据量化范围是否动态调整，PTQ可分为静态量化（离线确定所有量化参数）和动态量化（部分参数在推理时动态计算）。PTQ的挑战在于处理激活值中的异常值（可能严重影响量化精度）和不同层对量化的敏感度差异。现代PTQ技术如GPTQ、AWQ等采用更精细的量化策略，如按通道量化、自适应舍入、稀疏感知量化等，显著提升了PTQ的精度保持能力。

2.5 精度损失

量化后模型预测能力的下降程度，好的量化方法能让损失几乎可以忽略。

精度损失是量化过程中不可避免的关键权衡因素，表现为量化模型相对于原始全精度模型在各项评估指标（准确率、F1分数、困惑度等）上的下降。精度损失的本质源于信息压缩过程中的信息丢失：从高精度浮点数到低精度整数的转换相当于将连续无限的数值空间映射到离散有限的数值空间，必然引入量化误差。这些误差在前向传播过程中会逐层累积和放大，最终影响模型输出。
优秀的量化方法能够将精度损失控制在1%以内甚至几乎不可察觉，这需要综合考虑多个因素：选择合适的量化粒度（逐层、逐通道或逐组）、设计合理的校准策略、处理异常值的影响，以及可能的量化后微调。精度损失的评估不应只看单一指标，而应结合具体任务需求：在视觉分类任务中，Top-1准确率下降0.5%可能可接受；在机器翻译中，BLEU分数下降0.5可能已影响使用体验；而在医疗诊断等敏感应用中，任何精度损失都需要严格评估。
现代量化技术已发展出多种精度补偿机制，包括混合精度量化（关键层保持高精度）、选择性量化（跳过敏感层）、知识蒸馏（让量化模型学习全精度模型的输出分布）等。实际应用中，量化方案的选择需要在模型大小、推理速度、能耗和精度损失之间找到最佳平衡点，这通常需要通过详细的实验评估和部署环境分析来确定。

3. 量化数学原理

假设模型某参数的范围是[-10, 10]（FP32），要转成 INT8（范围[-128, 127]）：

缩放因子Scale = 10 / 127 ≈ 0.0787
量化：INT8值 = FP32值 / Scale（四舍五入），比如FP32=5 → 5/0.0787≈63 → INT8=63
反量化：FP32值 = INT8值 × Scale，比如INT8=63 → 63×0.0787≈4.96，和原来的5几乎一致

4. 量化的意义

量化最核心的价值，直接决定了大模型能不能走进千家万户：

3.1 降低硬件门槛

原本需要几十万的 GPU 集群才能跑的大模型，量化后用普通的家用电脑、手机甚至嵌入式设备就能运行（比如手机里的本地 AI 助手）。

3.2 提升运行速度

低精度参数的计算量大幅减少，模型推理速度能提升 2-10 倍，比如原本生成一句话要 5 秒，量化后 1 秒就能出结果。

3.3 减少存储和带宽成本

FP32 转 INT8，模型体积直接缩小为原来的 1/4；在云端部署时，更小的模型能节省大量存储费用和数据传输带宽。

3.4 降低功耗

计算量减少意味着设备耗电减少，不管是数据中心的服务器，还是手机、物联网设备，都能更节能。

一句话总结：量化是大模型从实验室走向实际应用的关键技术。

二、量化的实现过程

我们以最常用的后训练量化（PTQ）为例，拆解量化的完整流程，这个流程不需要重新训练模型，适合初次接触理解。

步骤 1：确定量化目标

首先明确两个问题：

要把模型从哪种精度降到哪种精度？（比如 FP32→INT8，是最主流的选择，平衡精度和性能）
量化哪些部分？（大模型分为权重和激活值，权重是模型的固定参数，激活值是模型运行时产生的中间数据，通常两者都要量化）

步骤 2：数据校准（核心步骤）

量化的关键是找到 “全精度数据” 和 “低精度数据” 的对应关系，这个过程叫 “校准”。举个 INT8 量化的例子：

1. 先选一小部分 “校准数据集”（比如几百个句子），让全精度模型跑一遍，记录下所有权重和激活值的最大值和最小值；
2. 计算一个 “缩放因子（Scale）”：把全精度数据的范围（比如 - 10 到 + 10）映射到 INT8 的范围（-128 到 + 127）；公式很简单：低精度值 = 全精度值 / Scale，再四舍五入取整。
3. 把这个缩放因子保存下来，后续推理时需要用它把低精度值还原成近似的全精度值。

通俗理解：校准就像给地图做比例尺 —— 把真实世界的大范围（全精度数据）缩小到一张小地图上（低精度数据），比例尺就是缩放因子。

步骤 3：模型量化转换

用步骤 2 得到的缩放因子，把模型的所有权重从全精度转换成低精度整数，保存成新的量化模型文件。这个过程可以用现成的工具（比如 PyTorch 的torch.quantization、TensorRT、GPTQ 等）自动完成，不需要手动计算。

步骤 4：推理时的 “量化 - 反量化”

量化后的模型运行时，会多两步操作：

1. 前向推理前：把输入数据量化成低精度；
2. 计算过程中：所有运算都用低精度整数进行，速度飞快；
3. 输出结果前：用缩放因子把低精度结果 “反量化” 成近似的全精度值，再输出给用户。

整个过程对用户是透明的，我们可以看到的还是正常的模型输出，但背后的计算已经 “轻量化” 了。

步骤 5：精度评估与调优

量化后必须做测试：用测试数据集对比全精度模型和量化模型的输出结果（比如准确率、困惑度等指标）。如果精度损失太大，有两个解决办法：

换更好的校准数据集（要和模型的应用场景匹配）；
调整量化策略（比如只量化部分层，或者用混合精度：部分层用 INT8，关键层保留 FP16）；
升级到量化感知训练（QAT），但需要更多的计算资源。

流程精简总结：

1. 确定量化目标：明确从何种精度转换到何种精度，以及量化模型的哪些部分（权重和激活值）
2. 数据校准：通过校准数据集计算缩放因子，建立全精度与低精度之间的映射关系
3. 模型量化转换：使用专业工具自动完成模型权重的量化转换
4. 推理时量化-反量化：在模型运行时动态进行量化计算和结果还原
5. 精度评估与调优：测试量化后模型的精度，如不满足要求则调整策略重新优化

三、量化的常见类型

1. 后训练量化（PTQ）

快速轻量化的入门选择，后训练量化是一种对已完成训练的全精度模型进行直接量化的技术。其核心思想是在不重新训练模型的前提下，通过校准数据集的统计信息，计算出最优的量化参数，实现模型的轻量化转换。

技术特点：

校准过程：PTQ的关键在于选择代表性的校准数据集，通过运行原模型收集各层的激活值分布，基于这些统计信息计算每层的量化参数（缩放因子和零点）。校准集通常只需几百到几千个样本，且不需要标注。
量化类型：分为静态量化和动态量化。静态量化在离线时确定所有量化参数；动态量化在推理时动态计算部分激活值的量化参数，更灵活但开销略大。
操作简便性：现代深度学习框架（如PyTorch、TensorFlow）提供了成熟的PTQ工具链，通常只需几行代码即可完成量化转换，整个流程可在几十分钟内完成。
精度平衡：对于大多数常见的计算机视觉和自然语言处理模型，8位量化通常能将精度损失控制在1%以内，而模型大小减少4倍，推理速度提升2-4倍。

适用场景扩展：

PTQ特别适合需要快速部署和资源受限的环境。例如：

移动应用中的实时图像分类或物体检测
边缘计算设备上的语音识别
浏览器端的文本生成或翻译服务
原型验证阶段需要快速评估量化效果的场景

2. 量化感知训练（QAT）

追求极致精度的专业方案，量化感知训练通过在模型训练阶段引入量化模拟，让模型在学习过程中适应低精度表示，从而在真正量化时最大限度保持性能。

技术特点：

模拟量化机制：QAT在前向传播中插入"伪量化"操作，将浮点数模拟量化为整数再反量化回浮点数，保持计算图的连续性；反向传播时使用直通估计器绕过量化操作的非可微性。
训练策略：通常采用分阶段训练策略：先用全精度训练收敛，然后开启量化感知微调，最后进行真正量化。这种渐进式方法比从头开始训练效率更高。
精度优势：QAT能主动调整权重分布，使其更适合量化表示。相比PTQ，QAT通常能将额外精度损失再降低50%以上，特别是对于复杂的模型架构和低精度设置。

适用场景扩展：

QAT适用于对精度要求极为严格且有足够训练资源的场景：

医疗影像分析中的病变检测，误判可能带来严重后果
金融风险评估模型，需要高精度预测违约概率
自动驾驶的感知系统，对物体识别精度要求极高
法律文档分析，需要精确理解文本语义
工业质检，细微缺陷检测需要高精度模型

3. 极低精度量化（INT4/INT2）

边缘计算的极致优化，极低精度量化将模型压缩到极致，通常需要结合创新的量化算法和专用硬件支持，是对资源极度受限环境的针对性解决方案。

技术特点：

算法创新：极低精度量化面临的核心挑战是4位或2位整数无法充分表示原始权重分布。常用解决方案包括：
- 分组量化：将权重分组，每组使用独立的缩放因子
- 混合精度分配：不同层使用不同精度，关键层保持较高精度
- 稀疏性利用：结合权重稀疏化，进一步压缩有效参数
- 知识蒸馏：用高精度模型指导极低精度模型训练
硬件要求：INT4/INT2量化需要硬件支持超低精度整数运算。现代AI加速器（如Google的TPU、NVIDIA的Tensor Cores）已开始支持INT4甚至INT2运算，但性能优化需要专门调优。
精度恢复技术：为补偿极低精度带来的损失，常采用：
- 量化感知训练：必需而非可选
- 激活值量化策略优化：更精细的激活值量化方案
- 后量化微调：量化后在小数据集上进行微调

适用场景扩展：

极低精度量化专为资源极度受限和功耗敏感的场景设计：

可穿戴设备（智能手表、健康监测手环）
物联网传感器节点，电池供电且计算能力有限
实时视频监控的边缘设备，需要持续运行且功耗低
大规模部署的智能家居设备，成本控制是关键
卫星或无人机上的实时处理系统，受限于重量和功耗

4. 量化方法选择策略

实际应用中，量化方法的选择应基于四维权衡：

1. 精度要求：医疗、金融等高精度场景倾向QAT；通用应用可接受PTQ
2. 资源限制：移动端、边缘设备优先考虑PTQ或极低精度量化
3. 时间成本：快速部署选PTQ；有训练时间且追求精度选QAT
4. 硬件支持：确认部署平台支持的量化格式和精度

现代最佳实践常采用混合策略：

先用PTQ快速验证量化可行性
如果精度不达标且有时间资源，升级到QAT
对于资源受限场景，从INT8开始，逐步测试INT4的可行性
考虑分层量化：对敏感层保持较高精度，对其他层进行较强压缩

四、由浅入深的示例

1. 基础理解：标量/张量的基础量化

第一步加深基础理解，不涉及完整大模型，先理解“全精度→低精度”的转换本质，就像先学数学基础1+1=2，再学高等数学。

import torch

# ===================== 1. 定义一个全精度张量（模拟模型参数） =====================
# 模拟模型中的一个权重张量，FP32精度（32位浮点数）
fp32_tensor = torch.tensor([1.23, -4.56, 7.89, -0.12], dtype=torch.float32)
print("原始全精度张量（FP32）：", fp32_tensor)
print("原始张量占用内存：", fp32_tensor.element_size() * fp32_tensor.numel(), "字节")  # 4字节/元素 × 4元素=16字节

# ===================== 2. 手动实现INT8量化核心逻辑 =====================
# 步骤1：计算缩放因子（Scale）——把FP32范围映射到INT8范围（-128~127）
max_val = torch.max(torch.abs(fp32_tensor))  # 取绝对值最大值，避免正负偏移
scale = max_val / 127.0  # INT8最大值是127，最小值-128，这里简化用127

# 步骤2：量化（FP32→INT8）：除以缩放因子后取整
int8_tensor = torch.round(fp32_tensor / scale).to(torch.int8)
print("\n量化后INT8张量：", int8_tensor)
print("量化后张量占用内存：", int8_tensor.element_size() * int8_tensor.numel(), "字节")  # 1字节/元素 ×4=4字节（缩小4倍）

# 步骤3：反量化（INT8→FP32）：还原成近似的全精度值（推理时输出用）
fp32_recovered = int8_tensor.to(torch.float32) * scale
print("\n反量化后的近似FP32张量：", fp32_recovered)
print("量化前后误差：", torch.mean(torch.abs(fp32_tensor - fp32_recovered)))  # 误差很小，几乎可忽略

输出结果：

原始全精度张量（FP32）： tensor([ 1.2300, -4.5600, 7.8900, -0.1200]) 原始张量占用内存： 16 字节量化后INT8张量： tensor([ 20, -73, 127, -2], dtype=torch.int8) 量化后张量占用内存： 4 字节反量化后的近似FP32张量： tensor([ 1.2425, -4.5352, 7.8900, -0.1243]) 量化前后误差： tensor(0.0104)

示例解析：

这是量化的 “最小单元”：核心就是 “算缩放因子→量化→反量化”，所有大模型量化都是这个逻辑的批量放大；
内存从 16 字节降到 4 字节：对应大模型从 “几百 GB” 缩到 “几十 GB”，这就是量化的核心价值；
误差很小：说明 “降精度” 没丢太多信息，日常使用感知不到。

2. 完整 CPU 量化流程

大模型量化对 CPU 来说，是让一般的硬件设备也能调试运行大模型的核心技术：

核心逻辑：缩放因子映射 + 量化 / 反量化节点；
核心操作：CPU 上先校准、再转换、最后验证；
核心目标：内存省 75%、速度提 2-5 倍，精度损失几乎无感知。

2.1 定义 CPU 适配的简单模型

import torch
import torch.nn as nn
from torch.quantization import QuantStub, DeQuantStub, get_default_qconfig, prepare, convert

# 确保全程在CPU运行
torch.set_default_device('cpu')

# 定义模拟大模型结构的简单网络（CPU友好）
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        # 量化/反量化节点（老版本PyTorch必需，CPU适配）
        self.quant = QuantStub()  # 输入量化：FP32→INT8
        self.dequant = DeQuantStub()  # 输出反量化：INT8→FP32
        
        # 模拟大模型的核心层（线性层+激活层）
        self.fc1 = nn.Linear(in_features=16, out_features=32)  # 输入16维，输出32维
        self.relu1 = nn.ReLU()  # 激活函数
        self.fc2 = nn.Linear(in_features=32, out_features=16)  # 输出16维
        self.relu2 = nn.ReLU()

    def forward(self, x):
        # 量化节点：CPU上执行输入量化
        x = self.quant(x)
        
        # 模型前向计算（全程CPU）
        x = self.fc1(x)
        x = self.relu1(x)
        x = self.fc2(x)
        x = self.relu2(x)
        
        # 反量化节点：CPU上执行输出反量化
        x = self.dequant(x)
        return x

# 初始化模型并设为评估模式（量化仅用于推理，CPU运行）
model_fp32 = SimpleModel()
model_fp32.eval()
print("===== 全精度模型初始化完成（CPU）====")
print(f"模型结构：\n{model_fp32}")

2.2 准备 CPU 校准数据

# 校准数据要求：少量、和模型输入匹配、贴近真实场景（CPU生成）
# 生成100条校准数据，每条16维（和模型输入维度一致），CPU存储
calibration_data = [torch.randn(1, 16) for _ in range(100)]
print(f"\n===== 校准数据准备完成（CPU）====")
print(f"校准数据数量：{len(calibration_data)}条")
print(f"单条数据形状：{calibration_data[0].shape}（匹配模型输入）")

# 测试全精度模型是否能在CPU正常推理
test_input = torch.randn(1, 16)
with torch.no_grad():  # 关闭梯度计算，节省CPU算力
    fp32_output = model_fp32(test_input)
print(f"\n===== 全精度模型CPU推理测试 =====")
print(f"输入值：{test_input[0][:5]}（前5个值）")
print(f"输出值：{fp32_output[0][:5]}（前5个值）")

2.3 CPU 上配置量化参数（静态量化・INT8）

# 配置CPU量化后端（fbgemm适配x86 CPU，qnnpack适配ARM CPU）
qconfig = get_default_qconfig('fbgemm')
# 给模型绑定量化配置（CPU上执行）
model_fp32.qconfig = qconfig

# 准备量化：CPU上分析模型结构，插入量化节点
model_prepared = prepare(model_fp32)
print(f"\n===== 模型量化准备完成（CPU）====")
print(f"量化配置：{model_prepared.qconfig}")

2.4 CPU 上执行校准

print(f"\n===== 开始CPU校准（统计数据分布）====")
# 用校准数据跑模型，统计权重/激活值的分布（CPU计算）
with torch.no_grad():
    for data in calibration_data:
        model_prepared(data)  # 仅前向推理，不训练
print(f"校准完成！CPU已统计出缩放因子（Scale）")

2.5 CPU 上转换为量化模型（INT8）

# 转换为INT8量化模型（CPU上执行）
model_int8 = convert(model_prepared)
print(f"\n===== 量化模型生成完成（CPU·INT8）====")
print(f"量化模型结构：\n{model_int8}")

# 测试量化模型CPU推理
with torch.no_grad():
    int8_output = model_int8(test_input)
print(f"\n===== 量化模型CPU推理测试 =====")
print(f"量化输出值：{int8_output[0][:5]}（前5个值）")

2.6 CPU 上对比量化效果（精度 + 性能）

# 1. 精度对比：计算平均绝对误差（CPU）
abs_error = torch.mean(torch.abs(fp32_output - int8_output))
print(f"\n===== 量化精度评估（CPU）====")
print(f"全精度输出：{fp32_output[0][:5]}")
print(f"量化输出：{int8_output[0][:5]}")
print(f"平均绝对误差：{abs_error.item()}（<0.1即无感知）")

# 2. 内存对比（CPU）
def calculate_model_size(model):
    """计算模型参数在CPU上的内存占用（字节）"""
    total_size = 0
    for param in model.parameters():
        # 每个参数的内存：元素大小 × 元素数量
        param_size = param.element_size() * param.numel()
        total_size += param_size
    return total_size

fp32_size = calculate_model_size(model_fp32)
int8_size = calculate_model_size(model_int8)
print(f"\n===== 量化性能评估（CPU）====")
print(f"全精度模型内存：{fp32_size} 字节")
print(f"INT8量化模型内存：{int8_size} 字节")
print(f"内存节省：{1 - int8_size/fp32_size:.2f}（即{int((1 - int8_size/fp32_size)*100)}%）")

# 3. 速度对比（CPU）
import time
# 全精度模型推理耗时（CPU）
start_time = time.time()
with torch.no_grad():
    for _ in range(100):
        model_fp32(test_input)
fp32_time = time.time() - start_time

# 量化模型推理耗时（CPU）
start_time = time.time()
with torch.no_grad():
    for _ in range(100):
        model_int8(test_input)
int8_time = time.time() - start_time

print(f"\n===== 量化速度评估（CPU）====")
print(f"全精度模型100次推理耗时：{fp32_time:.4f} 秒")
print(f"INT8量化模型100次推理耗时：{int8_time:.4f} 秒")
print(f"推理速度提升：{fp32_time/int8_time:.2f} 倍")

输出结果：

===== 全精度模型初始化完成（CPU）==== 模型结构： SimpleModel( (quant): QuantStub() (dequant): DeQuantStub() (fc1): Linear(in_features=16, out_features=32, bias=True) (relu1): ReLU() (fc2): Linear(in_features=32, out_features=16, bias=True) (relu2): ReLU() ) ===== 校准数据准备完成（CPU）==== 校准数据数量：100条单条数据形状：torch.Size([1, 16])（匹配模型输入） ===== 全精度模型CPU推理测试 ===== 输入值：tensor([ 1.9764, -0.5861, 0.1155, -1.5267, -0.7654])（前5个值）输出值：tensor([0.4386, 0.0205, 0.0000, 0.0000, 0.0000])（前5个值） ===== 模型量化准备完成（CPU）==== 量化配置：QConfig(activation=functools.partial(<class 'torch.ao.quantization.observer.HistogramObserver'>, reduce_range=True){'factory_kwargs': <function _add_module_to_qconfig_obs_ctr.<locals>.get_factory_kwargs_based_on_module_device at 0x0000015A77BBC310>}, weight=functools.partial(<class 'torch.ao.quantization.observer.PerChannelMinMaxObserver'>, dtype=torch.qint8, qscheme=torch.per_channel_symmetric){'factory_kwargs': <function _add_module_to_qconfig_obs_ctr.<locals>.get_factory_kwargs_based_on_module_device at 0x0000015A77BBC310>}) ===== 开始CPU校准（统计数据分布）==== 校准完成！CPU已统计出缩放因子（Scale） ===== 量化模型生成完成（CPU·INT8）==== 量化模型结构： SimpleModel( (quant): Quantize(scale=tensor([0.0594]), zero_point=tensor([70]), dtype=torch.quint8) (dequant): DeQuantize() (fc1): QuantizedLinear(in_features=16, out_features=32, scale=0.03623142093420029, zero_point=66, qscheme=torch.per_channel_affine) (relu1): ReLU() (fc2): QuantizedLinear(in_features=32, out_features=16, scale=0.01594831421971321, zero_point=74, qscheme=torch.per_channel_affine) (relu2): ReLU() ) ===== 量化模型CPU推理测试 ===== 量化输出值：tensor([0.4466, 0.0159, 0.0000, 0.0000, 0.0000])（前5个值） ===== 量化精度评估（CPU）==== 全精度输出：tensor([0.4386, 0.0205, 0.0000, 0.0000, 0.0000]) 量化输出：tensor([0.4466, 0.0159, 0.0000, 0.0000, 0.0000]) 平均绝对误差：0.003916075453162193（<0.1即无感知） ===== 量化性能评估（CPU）==== 全精度模型内存：4288 字节 INT8量化模型内存：0 字节内存节省：1.00（即100%） ===== 量化速度评估（CPU）==== 全精度模型100次推理耗时：0.0070 秒 INT8量化模型100次推理耗时：0.0320 秒推理速度提升：0.22 倍

量化的结果分析：

1. 模型结构变化：
- 全精度模型使用了QuantStub和DeQuantStub来标记量化的起点和终点。
- 量化后，模型中的线性层（fc1和fc2）被替换为量化版本（QuantizedLinear），并附带了缩放因子（scale）和零点（zero_point）。
- 激活量化使用HistogramObserver，权重量化使用PerChannelMinMaxObserver（每通道对称量化）。
2. 校准数据：
- 使用了100条校准数据，每条数据形状为[1,16]，与模型输入匹配。
3. 推理结果对比：
- 全精度模型输出前5个值：[0.4386, 0.0205, 0.0000, 0.0000, 0.0000]
- 量化模型输出前5个值：[0.4466, 0.0159, 0.0000, 0.0000, 0.0000]
- 平均绝对误差为0.0039，小于0.1，说明量化误差很小，在可接受范围内。
4. 内存节省：
- 全精度模型内存占用为4288字节，而INT8量化模型内存占用显示为0字节，这显然不符合预期。可能是计算内存占用的方式有误，或者是量化模型的内存占用没有被正确统计。
- 实际上，量化模型应该会减少内存占用，因为权重从32位浮点数变为8位整数。但这里显示0字节，可能是由于量化模型在CPU上使用的是动态计算图，没有静态参数存储，或者统计方法问题。正常情况下，量化模型的内存占用应该减少到大约1/4（因为32位到8位）。
5. 推理速度：
- 全精度模型100次推理耗时0.0070秒，而INT8量化模型100次推理耗时0.0320秒，速度反而慢了约4.57倍（0.0320/0.0070≈4.57），也就是说速度提升倍数为0.22倍（即更慢）。
- 这可能是由于以下原因：
  - a. 量化操作在CPU上可能没有充分利用硬件加速（例如，没有使用支持整数运算的指令集）。
  - b. 量化模型在推理时需要进行量化和反量化操作，这些操作可能增加了额外的开销。
  - c. 模型本身较小（只有两层，参数不多），量化带来的加速效果不明显，而量化/反量化的开销相对较大。
6. 总结：
- 量化后的模型在精度上损失很小（平均绝对误差小于0.1），说明量化校准成功，模型输出基本保持原貌。
- 但是，在内存节省和推理速度方面，本次量化结果并不理想。内存节省显示为0，可能是统计错误；而推理速度反而下降，可能是由于模型较小，量化操作在CPU上的开销超过了计算节省的时间。

建议：对于小模型，量化可能不会带来明显的性能提升，甚至可能降低速度。但对于大模型，量化通常可以显著减少内存占用并提升推理速度。另外，可以尝试在支持整数运算加速的硬件（如某些ARM处理器或GPU）上运行量化模型，以获得更好的性能。

注意：由于本地配置环境有限，过程做了针对CPU的专门处理，实际可以根据配置来做优化调整。

五、总结

大模型量化的核心逻辑非常简单：用“精度的小妥协”换“部署的大便利”。它不是高深莫测的黑科技，而是让大模型接地气的实用技术，没有量化，我们就不可能在手机上用本地 AI、在普通电脑上跑大模型。

对于我们初次接触来说，从后训练量化（PTQ）入手，用现成的工具跑一遍量化流程，就能直观感受到它的效果。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

第四期热点征文-大模型技术

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

第四期热点征文-大模型技术

#大模型量化

#大模型应用

登录后参与评论

0 条评论

热度