这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点,通过实验证明长期强化学习训练(ProRL)能够使基础模型发现全新的推理策略。ProRL方法体系包含KL散度控制机制、参考策略重置技术以及多元化任务训练集。
ProRL核心方法论
基于GRPO的强化学习算法
ProRL采用组相对策略优化(Group Relative Policy Optimization, GRPO)作为核心强化学习算法。相较于传统的近端策略优化(Proximal Policy Optimization, PPO),GRPO移除了价值函数模型,转而采用基于组分数的基线估计方法。该算法的优化目标函数定义如下:
其中τ表示从当前策略πθ中采样得到的响应序列,rθ(τ) = πθ(τ) / πold(τ)表示每次参与者更新前当前策略与旧策略之间的概率比值。
GRPO算法中的优势函数摒弃了PPO中的评论家模型设计,而是直接从组分数{Ri}中估计基线值:
熵坍塌问题的缓解策略
长期策略优化过程中的关键挑战是熵坍塌现象,即模型输出分布在训练早期阶段变得过于集中,导致熵值急剧下降。当熵坍塌发生时,策略会过早地固化在一组有限的输出模式上,严重限制了模型的探索能力。这种现象对于GRPO等依赖多样化采样输出来有效估计相对优势的方法尤其有害。缺乏充分探索将导致策略更新产生偏差,最终使训练过程陷入停滞。
传统的缓解策略通过在推理阶段增加采样温度来解决这一问题。然而,这种方法只能延缓熵坍塌的发生时间,无法根本阻止其发生,因为熵值在训练过程中仍会持续稳定下降。尽管存在这些局限性,本研究仍采用了较高的推理温度设置。
解耦裁剪与动态采样策略优化
为了从根本上解决熵坍塌问题,本研究采用了动态采样策略优化(Dynamic Sampling Policy Optimization, DAPO)算法中的多个关键组件,这些组件专门设计用于维持探索能力和输出多样性。
DAPO首先引入了解耦裁剪机制,将PPO目标函数中的下裁剪边界和上裁剪边界视为独立的超参数进行优化:
通过为ϵhigh设置更高的数值,该算法实现了"高阈值裁剪"效果,提升了先前概率较低的标记的出现概率,从而鼓励更广泛的探索行为。这种修改有效地维持了系统熵并减少了过早的模式坍塌现象。
此外,DAPO采用动态采样技术,自动过滤那些模型持续完全成功或完全失败(准确率为1或0)的提示样本,因为这些样本无法提供有效的学习信号。通过专注于中等难度的示例,这种方法进一步有助于在训练过程中维持多样化的学习信号。
KL正则化与参考策略重置机制
虽然DAPO和温度调整技术有助于减缓熵坍塌速度,但通过KL散度惩罚进行的显式正则化提供了更加稳健和稳定的解决方案。具体而言,本研究在当前策略πθ和参考策略πref之间引入了KL散度惩罚项:
这种惩罚机制不仅有助于维持系统熵,还充当正则化器的角色,防止在线策略偏离稳定参考点过远,从而稳定学习过程并减轻对虚假奖励信号的过拟合风险。
近期研究倾向于移除KL惩罚项,其理由是模型在思维链推理任务的训练过程中会自然发散。这种观点通常适用于从任何监督微调之前的基础模型开始训练的情况。相比之下,当从一个已经能够生成连贯思维链输出的良好初始化检查点开始训练时,保留KL惩罚项对于维持稳定性和持续熵仍然具有重要意义。
随着训练进程的推进,KL项可能在损失函数中占据主导地位,导致策略更新幅度减小。为了缓解这一问题,本研究引入了一种简单而有效的技术:参考策略重置。系统会周期性地将参考策略πref硬重置为在线策略πθ的最新快照,同时重新初始化优化器状态。这种机制使得模型能够在保持KL正则化优势的同时继续改进性能。参考策略重置技术在整个训练过程中持续应用,以避免过早收敛并促进长期训练的有效性。
Nemotron-Research-Reasoning-Qwen-1.5B模型
Nemotron-Research-Reasoning-Qwen-1.5B是基于DeepSeek-R1-Distill-Qwen-1.5B通过强化学习训练得到的通用推理模型。该模型的训练数据集包含13.6万个跨越数学、编程、STEM学科、逻辑谜题和指令遵循等多个领域的可验证问题。
训练数据集构成
训练数据集涵盖广泛的任务类型,旨在提供可靠的验证奖励信号。这些任务不仅包括数学问题求解和代码生成等传统推理领域,还扩展到更复杂和开放式的领域,包括STEM相关问题求解、逻辑推理谜题和指令遵循任务。
数学领域:采用DeepScaleR提供的高质量、社区策划数据集,包含来自国内外数学竞赛的4万个数学问题。系统采用DeepScaleR的原始验证器,并结合改进的math-verify4工具进行答案验证。奖励机制采用二元信号设计,正确答案获得奖励1,错误或格式不正确的答案获得奖励0。模型通过"让我们逐步思考并在\boxed{}中输出最终答案"的提示格式生成回答。
编程领域:使用公开可用的强化学习数据集,包含来自编程竞赛的2.4万个编程问题。系统改进了代码执行环境,能够运行所有测试用例而不是在首次错误时终止,并根据通过测试用例的比例分配奖励,以支持连续性奖励反馈。编译失败、包含语法错误或总执行时间超过5秒的提交将被分配零奖励。系统指示大语言模型使用三个反引号将最终代码响应包围。
STEM学科:利用SCP-116K数据集,这是一个包含27.4万个科学问题-解决方案对的大规模数据集,涵盖物理、化学、生物和数学等多个学科领域。每个问题都配有从原始源文本中提取的相应解决方案,以及由DeepSeek-R1生成的模型响应和推理路径。系统应用了严格的数据过滤标准,包括删除缺乏可检索真实解决方案的问题,并使用GPT-4o评估DeepSeek-R1响应与标准答案的一致性,最终将数据集规模缩减至2.5万个高质量样本。
逻辑谜题(Reasoning Gym):利用Reasoning Gym项目资源,该项目提供跨越不同领域的约100个推理任务。涵盖领域包括代数、算术、计算科学、认知科学、几何学、图论、逻辑学和流行游戏等。数据集包含3.7万个合成训练样本和9600个验证样本,覆盖96个不同任务类型。系统采用Reasoning Gym存储库提供的验证器进行模型评估和强化学习训练信号生成,使用推荐的默认提示格式,指示模型将答案包含在<answer></answer>标签之间。
指令遵循:利用来自Llama-Nemotron的合成生成数据,设计类似于IFEval的评估格式。数据集包含将具体任务与随机选择的指令进行配对的合成提示。模型在进行思考过程(通过</think>标记分隔)后生成最终响应。
训练实施方案
系统采用Verl框架进行强化学习训练,实现了DAPO提出的GRPO算法增强功能。训练过程中解耦了裁剪超参数设置,将ϵlow设置为0.2,ϵhigh设置为0.4,并使用动态采样技术过滤过于简单或困难(准确率等于1和0)的提示样本。在推理阶段,系统为每个提示采样n=16个响应,上下文窗口限制为8096个标记,并使用1.2的高采样温度。
验证监控机制:系统使用混合验证数据集监控训练进度,包含来自AIME2024、Codeforces、GPQA-diamond、IFEval以及Reasoning Gym中逻辑谜题graph_color任务的子集样本。
参考模型和优化器重置策略:当验证指标出现下降或停滞时,系统对参考模型和优化器执行硬重置操作。这些重置操作还允许调整超参数设置以及引入新的训练数据和奖励塑形机制。
上图展示了训练过程中KL散度的变化情况。
训练阶段1:初始阶段不包含指令遵循数据,响应长度限制为8k标记(基础模型的序列长度为128k)。在训练后期观察到验证性能的不稳定性和下降趋势。
训练阶段2:对参考策略执行硬重置操作,以与阶段1相同的设置恢复训练过程,最大响应长度维持在8k标记。
训练阶段3:将指令遵循数据纳入训练数据混合中,训练持续进行直至观察到响应长度突然增加的现象,这是由于模型出现重复答案且未能正确以<eos>标记终止。
训练阶段4和5:通过惩罚未正确终止的响应引入奖励塑形机制,这种方法促进了正确的生成行为,从而适度减少了响应长度。
训练阶段6和7:将推理计数从16增加到32,执行了两次硬重置操作。随着验证指标的改善,响应长度再次开始增加。
训练阶段8:将上下文窗口扩展至16k标记,同时将推理计数减少至16。模型迅速适应了扩展的上下文窗口设置。在AIME等困难数学任务中观察到边际性改进,而在其他领域则实现了更显著的性能提升。
实验评估结果
上图展示了数学领域基准测试的性能(pass@1)比较结果。Nemotron-Research-Reasoning-Qwen-1.5B模型在数学领域持续优于基础模型(DeepSeek-R1-Distill-Qwen-1.5B),平均性能提升达15.7%。
上图展示了编程基准测试的性能(pass@1)比较结果。该模型在竞争性编程任务中超越了基础模型,pass@1准确率提高了14.4%。
上图展示了STEM推理(GPQA Diamond)、指令遵循(IFEval)和逻辑谜题(Reasoning Gym)任务的性能比较结果。
主要性能指标
模型在STEM推理和指令遵循方面取得了显著进展,在GPQA Diamond测试中实现了25.9%的性能提升,在IFEval测试中实现了22.0%的性能提升。在Reasoning Gym逻辑谜题测试中取得了高准确率,奖励分数提高了54.8%。
该模型在多个领域展现出与更大规模模型(DeepSeek-R1-Distill-Qwen-7B)相当或更优的性能表现。在Reasoning Gym的分布外(Out-of-Distribution, OOD)任务中表现出显著改进,展示了更强的泛化能力。
与领域特定模型(DeepScaleR-1.5B和DeepCoder-1.5B)相比,该模型在数学基准测试中取得了4.6%的pass@1分数提升,在编程基准测试中取得了6.5%的pass@1分数提升。
论文https://arxiv.org/abs/2505.24864
作者:Ritvik Rastogi
喜欢就关注一下吧:
点个在看你最好看!
领取专属 10元无门槛券
私享最新 技术干货