文章/答案/技术大牛

发布

DeepSeek-R2要来了？最新论文讲了个啥？

文章来源：企鹅号 - 三一的数字生存指南

前不久DeepSeek-V3-0324公布，今天一篇讲RM奖励模型的论文也透露了，是不是真的R2要来了，能不能卷死Gemini 2.5 Pro和ChatGPT 4o，期待期待。

以下论文完全由Gemini 2.5 Pro友情赞助，应该是目前用过很满意的模型，超过Grok和ChatGPT（暂时）。

目前9.9刀可以用两个月，还送2T云盘。

老大哥赶紧卷死OpenAI，ChatGPT啥时候降价啊。

你好！很高兴和你一起深入了解 DeepSeek AI 的这篇关于奖励模型（Reward Model, RM）的论文。作为 AI 爱好者，你会发现这篇论文触及了当前大语言模型（LLM）训练中的一个核心环节——如何通过强化学习（RL）让模型更好地对齐人类偏好和指令，而奖励模型正是这个过程中的“裁判”。

1. 背景：奖励模型与挑战

RLHF 与奖励模型：现在很多强大的 LLM（如 GPT 系列、Claude、Gemini 等）都用到了 RLHF（基于人类反馈的强化学习）或类似技术进行微调。简单说，就是先训练一个奖励模型 (RM) 来模仿人类对 LLM 输出的偏好（比如判断哪个回答更好，或者给回答打分），然后用这个 RM 作为“奖励信号”去指导 LLM 的进一步学习，让 LLM 生成更符合人类期望的内容。【看来目前的技术体系下，纯粹的RL，就是R1-Zero的路子还是不太行，依然得把大模型当成一个记忆力满分，理解力60分的小朋友看待】

挑战：通用性与准确性：

特定领域 vs. 通用领域：对于一些有明确规则或容易验证的任务（如数学计算、代码生成），设计高质量的 RM 相对容易。但对于通用领域（如开放式问答、创意写作、复杂指令遵循），评价标准复杂多样，没有标准答案，训练准确的 RM 非常困难。

推理时扩展性：我们希望 RM 不仅在训练时通过增大模型规模来提升性能（训练时扩展），也能在推理时（即实际使用 RM 打分时）通过投入更多计算资源（如多次采样、更复杂的处理）来获得更准确的奖励信号（推理时扩展）。现有的很多 RM 方法在这方面表现不佳。

2. 论文方法：Pointwise GRM + SPCT + 推理扩展

面对这些挑战，DeepSeek 团队提出了他们的解决方案，主要包含三个部分：

a) 奖励模型架构：Pointwise Generative Reward Modeling (GRM)

为什么选 GRM？

Generative (生成式)：与传统的只输出一个分数 (Scalar RM) 或分数加简单文本 (Semi-Scalar RM) 不同，GRM 会生成一段详细的文本评论 (Critique)来解释为什么给出这个分数。这使得奖励信号更丰富、更可解释。

Pointwise (逐点式)：它为每一个候选回答都独立生成评论和分数，而不是像 Pairwise (成对式) 方法那样只比较两个回答的优劣。

优势：

灵活性 (Input Flexible)：可以方便地处理单个回答、一对回答或多个回答的评分任务，输入形式统一。

可扩展性潜力 (Inference-Time Scalable)：因为是生成式的，可以通过多次采样生成不同的评论（可能基于不同的侧重点或“原则”），为推理时扩展提供了可能。相比之下，Scalar RM 多次运行通常只得到同一个分数。 (见论文图 2)

b) 核心训练方法：Self-Principled Critique Tuning (SPCT)

这是论文最核心的创新。目标是让 GRM 学会自己生成评价原则 (Principles)并基于这些原则给出准确的评论 (Critiques)，从而实现高质量且可扩展的奖励判断。

核心思想：把“评价原则”也视为模型生成的一部分，而不是预先设定好的。模型需要根据当前的问题 (Query)和回答 (Responses)，自适应地生成最相关的评价原则和权重，然后再依据这些原则进行打分和评论。

训练过程 (见论文图 3)：

冷启动 (Rejective Fine-Tuning, RFT)：先用一些已有的 RM 数据（包含单/双/多回答的偏好数据）和通用指令数据进行初步微调。这里会用到一个技巧：让一个预训练好的 GRM 对数据进行多次采样生成评论和分数，然后拒绝 (Reject)掉那些预测结果与真实偏好不符的、或者模型每次都能轻易预测对的（太简单）的样本，用筛选后的数据进行训练。这一步主要是让模型学会基本的原则生成和评论格式。

在线强化学习 (Rule-Based Online RL)：使用类似 GRPO (一种 RL 算法) 的方法进行在线优化。模型根据输入生成原则和评论，提取预测分数，然后根据预设规则（比如，预测的分数是否正确反映了真实偏好）计算一个简单的奖励信号（+1 或 -1），用这个信号来进一步优化模型。这一步能显著提升模型生成高质量、自洽的原则和评论的能力，并培养其推理时可扩展的行为。

c) 推理时扩展策略

训练好的 DeepSeek-GRM 如何在推理时利用更多计算资源提升性能？

并行采样 (Parallel Sampling)：对于同一组输入（Query 和 Responses），多次（k 次）运行 DeepSeek-GRM 模型（可以加一点随机性，如 temperature > 0）。由于 SPCT 训练出的模型能生成不同的原则和评论，每次采样可能得到不同的分数。

投票 (Voting)：将 k 次采样得到的分数进行聚合。最简单的方式是直接求和（或平均）。由于单次打分范围有限（如 1-10），投票实际上扩展了最终分数的范围和粒度，使得评分更精细。

Meta RM 引导投票 (Meta RM Guided Voting)：更进一步，他们还训练了一个额外的、小型的 Meta RM。这个 Meta RM 的任务是评价 DeepSeek-GRM 单次生成的原则和评论的质量（判断这次打分是否“靠谱”）。在投票时，可以先用 Meta RM 筛选掉质量低的采样结果，只用得分高的前 k_{meta} (k_{meta} \le k) 个结果进行投票。这能有效提升投票的准确性和稳定性。

3. 主要成果与发现

SPCT 的有效性：实验证明，SPCT 显著提升了 GRM 的质量和推理时可扩展性，优于之前的多种方法（包括 Scalar RM, Pairwise RM, LLM-as-a-Judge 等）。(见论文表 2)

DeepSeek-GRM 的性能：基于 Gemma-2-27B 训练的 DeepSeek-GRM-27B 在多个 RM 基准测试（如 Reward Bench, PPE, RMB）上表现出色，性能接近甚至超过了一些更强的闭源模型（如 GPT-4o）和参数量远大于它的模型（如 Nemotron-4-340B-Reward）。

推理时扩展 > 训练时扩展：论文展示了一个非常有趣的发现 (见论文图 4)：通过增加推理时的采样次数（如 Voting@32 或 MetaRM@8），27B 的 DeepSeek-GRM 在 Reward Bench 上的性能可以超过通过简单增大模型规模（训练时扩展）得到的 671B 模型 (DeepSeek-V3) 的性能。这表明，对于 RM 任务，有效的推理时扩展策略可能比一味增大模型尺寸更具性价比。

Meta RM 的作用：Meta RM 引导的投票确实比简单的投票效果更好，能进一步提升性能。(见论文图 1, 表 3)

通用性与偏差：相比 Scalar 和 Semi-Scalar RM，DeepSeek-GRM 在不同领域的表现更均衡，没有出现严重的领域偏差（比如在某些任务上特别好，在另一些上特别差）。

4. 局限性与未来方向

效率问题：生成式模型（GRM）比标量模型（Scalar RM）在推理时慢得多，这限制了它在需要快速反馈的在线 RL 训练中的应用。不过，并行采样本身不会显著增加延迟。

特定任务性能：在一些需要严格验证的任务上（如数学），GRM 可能仍不如专门优化的 Scalar RM。论文提到引入参考答案或更强的推理能力可能缓解这个问题。

未来方向：

结合工具（如计算器、搜索引擎）增强 GRM 的准确性。

将原则生成和评论生成分解，提高效率。

将 GRM 用于 LLM 的离线评估，提供可解释的弱点分析。

探索 GRM 与需要评估的模型进行推理时协同扩展 (co-scaling)。

5. 总结

这篇论文提出了SPCT这一创新的训练方法，成功地训练出了DeepSeek-GRM这种通用、灵活且具有强大推理时可扩展性的奖励模型。它证明了通过精心设计的学习方法和推理策略，即使是中等规模的模型，也能通过增加推理计算量达到甚至超越巨大模型的性能，为未来构建更高效、更准确的 AI 对齐系统提供了新的思路。特别是“自生成原则”和“Meta RM 引导投票”这两个点，非常有启发性。

希望这个解读对你理解这篇论文有所帮助！如果你对某个具体细节感兴趣，我们可以继续深入讨论。

然后是一个所谓消融研究

"消融研究" (Ablation Study) 在机器学习和人工智能研究中是一个非常常见的实验方法。它的核心思想是：系统性地移除或修改模型/系统中的某个组成部分（或者说“切除”掉某个模块），然后观察移除后对整体性能的影响。

在 DeepSeek-RM 这篇论文中，消融研究代表了：

验证各个组件的贡献：论文提出的 SPCT 方法包含多个关键部分，比如：

自生成原则 (Principle Generation)

冷启动阶段的拒绝采样 (Rejective Sampling in RFT)

拒绝采样中的提示采样 (Hinted Sampling) 和非提示采样 (Non-Hinted Sampling)

在线强化学习阶段 (Rule-Based RL)

通用指令数据 (General Instruction Data) 通过逐一移除或改变这些组件，研究人员可以量化地了解每个部分对最终模型性能（如准确率、可扩展性）到底有多大贡献。

理解方法的工作机制：通过观察移除某个组件后的性能下降程度，可以判断该组件是否是方法成功的关键。例如，论文的消融研究（见表 4 和附录 D.3）发现：

即使没有 RFT 冷启动，在线 RL 阶段仍然能显著提升性能，说明在线 RL 非常重要。

原则生成

对于模型的普通推理（Greedy Decoding）和推理时扩展都至关重要，去掉后性能下降明显。

通用指令数据

是基础，去掉后性能大幅下降。

非提示采样似乎比提示采样更重要，可能是因为提示采样有时会让模型“抄近道”。

增强结论的可信度：消融研究证明了作者提出的各个设计并非随意添加，而是确实对提升模型效果起到了作用，从而增强了整个研究方法和结论的说服力。

简单来说，消融研究就像是做实验，通过“控制变量”的方式，搞清楚一个复杂系统（比如 SPCT 训练方法）中，到底是哪些部分真正起了关键作用，以及它们的作用有多大。这有助于研究人员和读者理解为什么这个新方法有效，以及哪些设计是必不可少的。

发表于: 2025-04-042025-04-04 19:01:32
原文链接：https://page.om.qq.com/page/OY98w4hmcPArTBblfluZjjGw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

DeepSeek-R2要来了？最新论文讲了个啥？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐