大家好,我是 AI 学习的老章
Unsloth 出圈是 DeepSeek-R1 爆火的时候,它发布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 这个非常大的模型(它有 6710 亿个参数,也就是 671B)通过“量化”把原本 720GB 的模型压缩到只有 131GB 的大小。

Unsloth 秘密武器是动态量化,核心思路是:对模型的少数关键层进行高质量的 4-6bit 量化,而对大部分相对没那么关键的混合专家层(MoE)进行大刀阔斧的 1-2bit 量化。
通过动态 GGUF 量化技术,像 DeepSeek-V3.1 (671B) 这样的巨型语言模型(LLMs)可以被量化到仅 1-bit 或 3-bit,但在 Aider Polyglot 等高难度基准测试中,其性能甚至能击败像 Claude-4-Opus 这样的顶尖(SOTA)模型。
这标志着模型量化技术的一个重要突破:极低的比特数不再意味着性能的大幅牺牲。

Aider Polyglot Benchmarks
Aider Polyglot 是一个衡量 LLMs 在无需人工干预的情况下,进行写作、编码、遵循指令和应用变更能力的综合性指标。它被认为是现实世界应用中最具挑战性和价值的基准之一,因为它评估的是模型在复杂任务中的自主能力。
Unsloth 团队在对 DeepSeek-V3.1 进行动态量化后,得出了以下令人振奋的结果:
值得注意的是,其他非 Unsloth 的 1-bit 和 2-bit 量化版本要么无法加载,要么产生乱码,这凸显了 Unsloth 动态量化方法的稳定性和有效性。
思考模式 (Thinking Mode)

非思考模式 (Non-Thinking Mode)

Unsloth 动态量化的核心思想是 “选择性量化”:
将重要的层保留为 8 或 16-bit,非重要层则压缩至 1、2、3、4、5 或 6-bit。
这种方法并非对模型的所有层“一视同仁”地进行压缩。通过研究,Unsloth 发现模型中的某些张量(如 attn_k_b)对量化操作极为敏感。将这些关键层保持在较高精度,同时将其他非关键层压缩到极低位,可以在最小化性能损失的同时,最大化压缩率。
例如,在 Qwen2-VL-2B-Instruct 案例中,简单将所有层量化为 4 位会导致模型将下图的火车误认为海岸场景:


这种策略尤其对 MoE(Mixture of Experts)模型有效,现已成为 MoE 量化的事实标准。
Unsloth 的动态量化技术证明,通过智能的、非均匀的量化策略,我们可以在大幅压缩模型体积的同时,保持甚至超越 SOTA 模型的性能。这使得在本地消费级硬件上运行高性能的巨型模型成为可能,为 AI 社区和开发者带来了巨大的价值。对于追求本地化、低成本部署高性能模型的用户来说,Unsloth 的动态量化模型无疑是当前最值得关注的方案之一。
Gemma 3 & Llama 4 动态基准测试


与其他量化方法的对比

动态量化消融实验

Pass Rate 1 (非思考模式)

参考:https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot