一.大模型基础
什么大模型?
由Y=F(X) ,由输入X得到输出Y ,中间的算法过程F就是模型
例如Y=aX+b ,通过大量数据训练确定参数a和b 的值
通常F是非常复杂的数学结构
大模型训练三步大模型训练三步走
走
二.DeepSeek-R1论文
标题:DeepSeek-R1:通过强化学习激发 LLM 中的推理能力
评估榜
AIME 2024 美国高中数学竞赛题评估集
过往研究简介
Deepseek训练策略
DeepSeek-R1-Zero 实验版本 ,DeepSeek-R1最终版本
方法
方法
概述
强化学习算法
强化学习算法
传统的强化学习
群体相对策略优化(GRPO)例子
奖励模型
训练模板
DeepSeek-R1-Zero 的性能、自进化过程和啊哈时刻(顿悟时刻)
DeepSeek-R1-Zero 的性能
图 2 展示了 DeepSeek-R1-Zero 在 RL 训练过程中于 AIME 2024 基准测试中的性能轨迹。
随着训练的推进,模型性能稳步提升,AIME 2024 的分数提高至 71.0%,达到与 OpenAI-o1-0912 相当的水平。
DeepSeek-R1-Zero 的性能提升至 86.7%,超越了 OpenAI-o1-0912。
图 2 |DeepSeek-R1-Zero 在训练期间的 AIME 准确性。
对于每个问题,抽样 16 个回答并计算总体平均准确性,以确保评估稳定。
DeepSeek-R1-Zero 的自我进化
DeepSeek-R1-Zero 的自我进化过程展示了 RL 如何驱动模型自主提升推理能力。通过直接从基础模型启动 RL,我们能够密切监控模型的进展,而无需依赖监督微调。
• 思考时间的改进(图 3):
模型在训练过程中逐渐学会用更多时间解决复杂推理任务,生成数百到数千个推理标记,以深入探索和完善其思维过程。
• 自发行为:
诸如反思(重新评估先前步骤)和探索替代解决方案等复杂行为自发出现,显著增强了模型的推理能力。
图 3 |RL 过程中 DeepSeek-R1-Zero 在训练集上的平均响应长度。DeepSeek-R1-Zero 自然而然地学会了用更多的思考时间来解决推理任务。
DeepSeek-R1-Zero 的“顿悟时刻”
在训练过程中,模型经历了一个“顿悟时刻”(表 3),学会为问题分配更多思考时间并重新评估初始方法。这一现象不仅展示了模型推理能力的提升,也体现了 RL 驱动下模型自主开发高级问题解决策略的能力。
表 3 |DeepSeek-R1-Zero 中间版本的一个有趣的“顿悟时刻”。该模型学会使用拟人化的语气重新思考。
这对我们来说也是一个顿悟的时刻,让我们见证了强化学习的力量和美丽。
DeepSeek-R1-Zero 的缺点
尽管表现出色,DeepSeek-R1-Zero 仍面临一些挑战:
• 可读性差:推理过程的可读性有待提升。
• 语言混合:模型在处理混合语言时表现不佳。
为解决这些问题,我们探索了 DeepSeek-R1,一种结合 RL 和人类友好型冷启动数据的方法,以提升推理过程的可读性并与开放社区共享。
DeepSeek-R1:使用冷启动进行强化学习
训练管道四阶段
一、冷启动
二、面向推理的强化学习
三、抑制采样和监督微调
四、二级强化学习阶段:模型与人类偏好对齐
蒸馏:赋予小模型推理能力
公榜评估
蒸馏与 强化学习的性能比较
失败的实验
总结
——The End——
记得点赞、分享,让更多的朋友一起探索这个IT世界的新篇章!
AIGC周边正在发布,关注生活,冻龄青春
推荐阅读
【LLM大模型】大语言模型改版:如何用好推理型大语言模型DeepSeek
【LLM大模型】DeepSeek零门槛三步极速部署指南,注册秒过,对话零延迟!
【大模型】手把手教你在本地部署DeepSeek R1,并集成到Dify中
【大模型】2025新年最新deepseek进阶使用指南,一个提示词去除deepseek AI感
【大模型】手把手教你在本地部署DeepSeek R1,并集成到Dify中
【LLM大模型】DeepSeek零门槛三步极速部署指南,注册秒过,对话零延迟!
【大模型】Meditron:基于 Llama 完全开源的医学大语言模型 性能优于所有开源模型
【大模型】微调训练框架之选:LLaMA-Factory、Unsloth 和 Hugging Face Transformers
【NAS】把B站「搬」进绿联NAS影视中心!自动同步,不怕和谐
【数字人】 天工人巧日争新:生成你的数字人分身(3)走向元宇宙飞升:MetaHuman三步构建数字人模型
领取专属 10元无门槛券
私享最新 技术干货