你知道 DeepSeek-R1 是如何创造出来的吗?
今天用一张图直观的展示 DeepSeek-R1 的诞生过程。
基础模型(DeepSeek-V3)
• V3预训练于大型语料库(BTW, 最近 R1 用的人太多很卡,如果你觉得 R1 很卡,我认为 V3 的性能基本能够平替 R1)
• 作为 R1-Zero 和 R1 训练的基础
左分支:直接通过强化学习(GRPO 算法)创造 R1-ZERO
• 训练过程中使用强化学习(RL),约 10K RL 步骤
• 训练可以没有冷启动(Cold Start)或监督微调(SFT)
• 不使用监督微调(SFT),完全依赖强化学习
• 通过自我演化提升推理能力
• AIME 2024 竞赛中,Pass@1 评分 71.0%
右分支:通过多个步骤创造 R1
1. 收集冷启动数据(约数千个思维链(CoT)示例)
• 收集高质量的 Chain-of-Thought(CoT) 数据,即思维链数据
• 提供大量高质量推理示例,以提升可读性和对齐性
2. 在约 80 万个样本上训练初始模型
•监督微调(SFT),在 80 万条数据 上训练
•涵盖写作、问答、编程、角色扮演等任务
•训练 2 个 Epoch(轮次)
3. 强化学习 + 偏好训练(约 10K 强化学习步骤)
• 结合冷启动数据、强化学习和监督微调
• 经过 10K RL 步骤 和偏好训练(Preference Training)
• AIME 2024 竞赛中,Pass@1 评分 79.8%
• 性能超过 OpenAI-o1-mini
4. 提取核心推理能力并应用到更小的模型
• 通过蒸馏(Distillation)技术,将推理能力迁移到更小的模型
• 使用 Qwen 和 Llama 进行优化
• 超越 Qwen-32B-Preview
5. 蒸馏至 Qwen 和 Llama 模型
• 1.5B 到 70B 参数的高效小型版本
• 主要基于 Qwen 和 Llama
• 开源,可用于研究
关键概念解释
GRPO 算法:一种强化学习优化方法,专为复杂任务设计。
Chain-of-Thought(CoT):逐步推理的数据格式,帮助模型拆解复杂问题。
Pass@1:首次生成即正确的概率,衡量模型推理准确性。
总结:
DeepSeek-R1 通过 监督微调 + 强化学习 + 偏好训练,从基础模型 DeepSeek-V3 进化而来,并最终蒸馏到更小的高效模型。DeepSeek-R1-Zero 则是完全基于强化学习训练的版本,R1 的表现优于 Zero,并且超过了 OpenAI-o1-mini。
>/ 作者:王三一
领取专属 10元无门槛券
私享最新 技术干货