最近几年,AI领域真是突飞猛进,尤其是大型语言模型(LLM),它们为通用人工智能(AGI)的发展打下了基础。OpenAI的o1模型就是个很好的例子,它用了一种创新的推理时间扩展技术,大大提升了推理能力。不过呢,这个模型还是闭源的,有点遗憾。
今天咱们来聊聊DeepSeek发布的一篇超有料的研究论文——DeepSeek-R1。这篇论文的标题是《DeepSeek-R1:通过强化学习激励大型语言模型中的推理能力》,里面介绍了一个超牛的开源推理模型,还详细讲解了怎么用大规模的强化学习技术来训练这种模型。
论文题目:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》
在咱们深入探讨那篇论文之前,先简单回顾一下大型语言模型(LLM)是怎么训练出来的。一般来说,LLM的训练可以分为三个主要阶段:
这篇论文有点特别,它直接跳过了或者部分跳过了监督微调这个阶段。具体来说,论文里提到的第一个模型——DeepSeek-R1-Zero,是从一个叫DeepSeek-V3-Base的预训练模型开始的,这个模型有6710亿个参数。有意思的是,它完全跳过了监督微调这一步。
为了大规模进行强化学习,论文里用了一种基于规则的强化学习方法,而不是传统的依赖人类或AI反馈的强化学习。这样一来,训练过程就简化了不少,效率也提高了。
GRPO 对给定输出进行多个输出采样,并指示模型选择最佳输出,对每个输出使用奖励
<think>
标签里,答案放在 <answer>
标签里,格式奖励就是确保模型不乱来。该模型被指示遵循一定的格式,在思考标签内生成推理过程,并在答案标签内回答
现在让我们探索 DeepSeek-R1-Zero 模型的一些性能见解。
DeepSeek-R1-Zero 与 OpenAI o1 的性能比较
在论文的上表中,我们看到了 DeepSeek-R1-Zero 和 OpenAI 的 o1 在推理相关基准上的比较。令人印象深刻的是,DeepSeek-R1-Zero 与 o1 相当,甚至在某些情况下超越了它。下面这张引人入胜的论文图表显示了在 AIME 数据集上测量的训练过程中的改进进展。值得注意的是,AIME 上的平均 pass@1 分数显著提高,从最初的 15.6% 跃升至令人印象深刻的 71.0%,达到与 OpenAI 的 o1 相当的水平!
DeepSeek-R1-Zero 训练过程中的改进进展
论文中的一个关键见解是模型的自我进化过程,如上图所示。x 轴表示训练步骤数,y 轴表示随着训练的进行,模型的响应长度增加。通过强化学习,模型自然学会在解决推理任务时分配更多的思考时间。令人惊讶的是,这无需任何外部调整即可实现。
论文中还提到了另一个有趣的现象,即 DeepSeek-R1-Zero 的“顿悟时刻”。论文中的以下示例演示了这一现象。给定一个数学问题,模型开始推理过程。然而,在某个时刻,模型开始重新评估其解决方案。模型学会重新评估其初始方法并在必要时自我纠正。这种非凡的能力在强化学习训练过程中自然出现。
模型学会重新评估其推理的顿悟时刻
现在让我们讨论一下第二个模型DeepSeek-R1的训练过程。但首先,既然我们刚刚看到了Zero如此出色的能力,为什么还需要第二个模型呢?
虽然 DeepSeek-R1-Zero 表现得很厉害,但它有两个小问题:
这两个问题让 DeepSeek-R1-Zero 用起来没那么顺手。有意思的是,研究发现,如果强行让模型只用一种语言,它的表现反而会稍微变差。看来模型是学会了用多种语言来表达自己,虽然我们人类通常只用一种语言。
DeepSeek-R1 采用四个阶段的流程进行训练:
免费提供的DeepSeek-R1与 OpenAI 的 o1 模型相比的出色结果。论文中的上图显示了 DeepSeek-R1 不仅在某些基准上与 o1 相当,而且超越了 o1。
此外,320 亿参数蒸馏模型也表现出了令人印象深刻的性能,使其成为具有高推理能力的可行小型替代方案
原文:https://aipapersacademy.com/deepseek-r1/