首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一张图描绘 DeepSeek-R1 的“诞生”过程

你知道 DeepSeek-R1 是如何创造出来的吗?

今天用一张图直观的展示  DeepSeek-R1 的诞生过程。

基础模型(DeepSeek-V3)

• V3预训练于大型语料库(BTW, 最近 R1 用的人太多很卡,如果你觉得 R1 很卡,我认为 V3 的性能基本能够平替 R1)

• 作为 R1-Zero 和 R1 训练的基础

左分支:直接通过强化学习(GRPO 算法)创造 R1-ZERO

• 训练过程中使用强化学习(RL),约 10K RL 步骤

• 训练可以没有冷启动(Cold Start)或监督微调(SFT)

• 不使用监督微调(SFT),完全依赖强化学习

• 通过自我演化提升推理能力

• AIME 2024 竞赛中,Pass@1 评分 71.0%

右分支:通过多个步骤创造 R1

1. 收集冷启动数据(约数千个思维链(CoT)示例)

• 收集高质量的 Chain-of-Thought(CoT) 数据,即思维链数据

• 提供大量高质量推理示例,以提升可读性和对齐性

2. 在约 80 万个样本上训练初始模型

•监督微调(SFT),在 80 万条数据 上训练

•涵盖写作、问答、编程、角色扮演等任务

•训练 2 个 Epoch(轮次)

3. 强化学习 + 偏好训练(约 10K 强化学习步骤)

• 结合冷启动数据、强化学习和监督微调

• 经过 10K RL 步骤 和偏好训练(Preference Training)

• AIME 2024 竞赛中,Pass@1 评分 79.8%

• 性能超过 OpenAI-o1-mini

4. 提取核心推理能力并应用到更小的模型

• 通过蒸馏(Distillation)技术,将推理能力迁移到更小的模型

• 使用 Qwen 和 Llama 进行优化

• 超越 Qwen-32B-Preview

5. 蒸馏至 Qwen 和 Llama 模型

• 1.5B 到 70B 参数的高效小型版本

• 主要基于 Qwen 和 Llama

• 开源,可用于研究

关键概念解释

GRPO 算法:一种强化学习优化方法,专为复杂任务设计。

Chain-of-Thought(CoT):逐步推理的数据格式,帮助模型拆解复杂问题。

Pass@1:首次生成即正确的概率,衡量模型推理准确性。

总结:

DeepSeek-R1 通过 监督微调 + 强化学习 + 偏好训练,从基础模型 DeepSeek-V3 进化而来,并最终蒸馏到更小的高效模型。DeepSeek-R1-Zero 则是完全基于强化学习训练的版本,R1 的表现优于 Zero,并且超过了 OpenAI-o1-mini。

>/ 作者:王三一

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OB_N_JCSEF960Fr11oQk3UcQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券