
当大模型成为Agent,我们该如何教会它“行动”?纯粹的模仿学习(SFT)天花板明显,而强化学习(RL)又面临奖励稀疏、环境复杂、探索成本高的挑战。本文将带你深入四种前沿的Agent训练方案:ReTool, RAGEN, RStar2, 和 Early Experience,看它们如何巧妙地设计环境、利用反馈,让Agent不仅“能干”,而且“聪明”。
我们将看到一条演进路线:从优化单一动作(ReTool),到学习长程规划(RAGEN),再到提升思考质量本身(RStar2),最后到一种不依赖外部奖励的、更底层的经验内化方式(Early Experience)。
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
“先学会用一个工具,再谈组合拳。”
ReTool是最基础的RL Agent训练,整体流程基本参考了DeepSeek R1-Zero的训练过程通过先SFT再RL的两阶段训练流程,教会模型在推理过程中何时调用单一Code工具,通过单轮或多轮工具调用进行任务完成。
SFT部分是通过模型反馈来把原始基于文本的推理结果,转换成包含code工具调用的高质量推理样本,让模型先通过模仿学会加入code工具的推理模版。而SFT的样本格式我们在RL部分一起说。
SFT阶段保证了模型推理可以稳定的生成包含code的推理格式,那RL阶段的目标是让模型超越模仿,通过与环境(代码解释器)的交互和结果反馈,自主探索和优化工具使用的策略,例如:何时调用工具、调用什么工具、如何处理错误等。
这里提一句,当下很多伙伴采用API进行大模型调用,工具调用都通过API传参实现,而已不知道在各个模型的system prompt内部究竟是如如何处理工具参数的。其实不同模型之间差异还是比较大的,这里提供chat template 参考

RL样本(称为Rollout)是在训练过程中动态生成的。ReTool 的核心创新之一就是其支持交错代码执行的Rollout机制。
其交互式Rollout流程如下
<interpreter> 标签内的所有Token(因为这不是模型生成的)。这是保证训练稳定性的关键。RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
“人生不是单步决策,Agent也是。”
Agent RL训练无外乎以下几个核心要素:环境构建、轨迹生成、RL训练。我们按顺序来说
我们先来说下环境构建,RAGEN虽然考虑到了动态随机环境的重要性但只设计了较为简化的游戏环境

有了环境我们看下论文是如何构建Agent行为轨迹的。 每个样本都从一组初始状态开始,让模型随机生成N条完成轨迹,轨迹中的每一步,模型都输出一个结构化的、包含推理过程的行为如下:

<think>...</think>:模型内部的推理过程,是“慢思考”的体现。<answer>...</answer>:最终提交给环境执行的具体动作。以上的三种环境会根据Agent行为给出或随机或确定的反馈,随后Agent会基于反馈给出进一步行动直到完成。整个轨迹中所有的组成部分(包括思考令牌和执行令牌)都会参与策略梯度计算,这意味着模型被激励去生成那些能带来高回报的推理过程。
首先每种环境都有对应的奖励函数设计如下,包含每一步的得分和对最终结果的得分,同时为了保证推理格式稳定可被解析,还有格式奖励,当模型没有按照以上推理格式输出时会有0.1的扣分。
环境 | 任务奖励规则 | 设计意图与说明 |
|---|---|---|
老虎机 | 选择低风险臂(Phoenix):固定获得 +0.15 选择高风险臂(Dragon):从伯努利分布(0.25)采样,成功+1.0,失败+0.0 预期收益:Dragon (0.25) > Phoenix (0.15) | 这是一个探索与利用的权衡测试。低风险臂奖励更稳定,但高风险臂长期期望更高。模型需要通过推理克服短期频繁的失败,坚持选择高期望选项。 |
Sokoban | 稀疏奖励与密集惩罚结合: • 每个箱子在目标点上:+1 • 每个箱子不在目标点上:-1 • 任务完成时:+10 • 每执行一个动作:-0.1 | • 鼓励最终解决问题(+10)。 • 引导模型高效解决问题(每步-0.1)。 • 通过箱子位置的正负奖励提供中间的、弱监督信号,帮助模型学习。 |
Frozen Lake | 极端的稀疏奖励: • 成功到达目标(G):+1 • 其他所有情况(掉入冰洞、未完成):0 每一步只有1/3的概率成功 | 这是最困难的奖励设置。模型在成功之前几乎没有任何反馈,必须通过多次试错来学习有效的策略。 |
其次对比传统单步RL只使用(prompt,response)样本对,只对最终输出结果计算奖励,论文引入了StarPO框架对整个轨迹计算累计奖励,并支持PPO、GRPO多种优化策略 。这种基于完整轨迹的训练目标对于模型的长规划与多轮决策能力有显著提升,原因是:
在如何把整个轨迹的整体奖励,计算到每一步的每个token上,论文使用了GAE(1.0,1.0)作为优势估计函数。既未来奖励不打折,并且使用多次随机轨迹的价值(模特卡洛)来进行优势估计。(不过这个参数设计和论文本身选择的环境有关,回合较短,并且强调无偏性),想更多了解GAE的可以划到文末去看GAE小课堂。
在实验过程中论文有以下几点发现
为了稳定长行为轨迹的RL训练,论文提出了StarPO-S,包含以下三点核心改进
整体上RAGEN和其他Agent RL训练论文因为在环境选取上的差异而显得不太一样,最重要的差异在于更多真实环境任务是很难获得中间步骤奖励的。所以我们接下来看下微软在真实任务上实验多轮agent优化的技术报告,并对比一些结论差异。
rStar2-Agent: Agentic Reasoning Technical Report
“通过空间扰动,让模型学习如何想得更好而非更长。”
微软RStar2的出发点很有趣,并非使用RL直接提升Agent效果,而是使用Code工具引入环境噪声,从而全面提升基模型的思考效果(think smarter而非longer)。这和MiniMax-M2作者近期的观点不谋而合既Agent的泛化能力是在模型一切可能的操作空间上适应扰动的能力。下面我们分RL优化算法和训练策略两部分展开。
论文采用了和DeepSeek相同的GRPO算法,并且和前面的RAGEN一样沿用了DAPO提出的移除KL,增加非对称CLIP来鼓励模型空间探索的策略。
在此基础上论文先是指出了当前RL训练的两个问题
针对以上问题论文提出了GRPO-RoC优化算法(Resample on Corret)。实现很简单就是在训练时先生成两倍的探索轨迹,针对答案正确的轨迹只保留质量最高的50%(中间工具调用报错更低、格式错误更少),同时对答案错误的轨迹进行均衡50%降采样。
论文希望通过这样的方式在保留通过正负轨迹对比习得经验的基础上,提升模型在正确轨迹上的推理效果,减少错误、低效的中间思考和工具调用。
有了训练策略,我们继续看下RStar2是如何基于Qwen-14B-base模型进行训练的。
首先训练过程中模型进行多轮思考和工具调用的chat template如下,assistant通过REACT给出工具调用,再用user角色返回工具结果,然后继续循环直到任务完成。不过不同模型对工具输出的角色处理其实是不同的,像DeepSeek就是都放在assistant角色下用/<tool_output/>包裹,个人比较建议实用原模型本身的工具处理模版(在chat template中),这里论文使用的是qwen模型

其次Base模型会顺序经过以下两个阶段训练
不难看出RStar2的训练突出了渐进式这个核心思路。通过渐进式推理长度延长来兼顾模型思考效果和思考长度,通过渐进式难度提升来兼顾不同难度样本的有效学习(避免简单问题过度学习)。
在最终效果上,在训练领域的数学类问题上RStar2的思考长度均显著下降,但是在通用类问题的解决效果上依旧有稳定的提升 —— Think Smarter。

Agent Learning via Early Experience
Scaling Agents via Continual Pre-training
“在学会跑之前,先学会看和想。”
最近Meta放出的这篇重量级论文其实和前面的Agent RL都有些不同,个人感觉它并非用于替代Agent RL训练,相反是用于在Agent RL之前搭建LLM和Agent的桥梁。本质上笔者感觉和阿里之前推出的Agentic CPT,在LLM之后增加Agent轨迹的后训练思路有些相似(哈哈虽然论文里说的出发点截然不同),但Early Experience的训练目标和训练数据构建方案更native(scaling)。
论文提出了3个重要的概念
世界探索,解决的是专家标注轨迹单一的问题 针对真实世界的问题,我们可以生成专家标注的执行轨迹,但是轨迹本身是单一的,它对整个世界的其他状态的探索是不充分的,因此会导致模型在遇到非标准情形时缺乏处理能力。
因此论文在每个可枚举的环境状态上,都在专家的Action之外,随机采样了另外K个行为,和该行为会导致的环境反馈。这样我们就能得到一份对环境探索更加全面的数据集
本质上环境状态的变化(观测)就是对行为质量的最好监督信号(反馈),但这个监督信号我们要如何通过训练内化到模型参数中呢?
世界建模,解决的是让智能体学习“如果我做这个动作会发生什么?”的问题
有趣的是论文又回到了最原始的Next Token Prediction。使用当前状态和行动作为上文(x),而环境的反馈作为(Y),让模型通过预测环境的可能反馈,来内化对环境的理解(世界模型)。这种训练的选择摆脱了RL对于监督信号的依赖。同时考虑到前面生成的非专家轨迹的量级往往比专家轨迹大很多个数量级,因此论文这里选择了两阶段训练,先使用rollout进行大量训练,再在专家轨迹上进行训练。
但在真实世界中感觉还有一些需要解决的问题,一个是环境的动态性,例如不同时间搜索引擎的返回内容是不同的;以及环境的复杂性,能否充分描述当前环境和环境变化是非常复杂,例如你该如何描述金融市场的变化,只有价格变化显然是不充分的。
以及上述的训练目标限定在了单步,把Agent长程行为简化成了单步的MDP,也就是基于当前状态,给出行为,获得的状态转移,并未把长程的行为决策对最终结果的影响考虑在内。
自我反思,解决的是让模型学习“为什么行动A比行动B效果更好的原因”
前面两步已经奠定了论文的核心思路,和前面RStar和RAGEN等相同,论文也增加了**轨迹对比
,从专家轨迹和随机采样的轨迹对比中来获取更多对应行为结果的反馈**。
论文通过以下的Prompt来从轨迹对比中不做专家经验好在哪里?错误的行为有哪些局限和低效的地方

不过和之前memory论文不同的是,这部分Reflection没有作为Note来在推理时使用,而是也使用NTP进行模型参数训练,来训练模型对于行为决策的理解。
以下是步骤2和3分别构建的环境反馈训练样本和轨迹对比训练样本

💡 关键洞察:
在强化学习中,我们的目标是让模型学会选择累计回报更高的行为,那最朴素的方案就是使用轨迹累计回报作为权重,来更新每一步的梯度。
但直接使用整体轨迹奖励的问题有两个
那解决方案就是引入基线,并且是根据每一步状态计算的基线,用整体轨迹奖励减去基线奖励作为当前步骤的奖励,这就是所谓的优势函数概念啦
优势函数 ( A(s_t, a_t) ) 被定义为:
因此,优势函数衡量的是:在状态 s_t 下,采取某个特定动作 a_t 比遵循当前策略的“平均”动作要好多少。
但是真实情况下Q和V都是未知的,因此我们需要对A进行估计,这里就引出了不同的估计方案。
GAE 的核心思想是:将以上两种估计器结合起来,通过一个参数 \lambda 作为偏差-方差的权衡。
GAE 的定义如下:
让我们来解析下这个公式,其中 \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t) 就是前面的TD 误差。只不过不止包含下一步,还包含未来的每一步的TD误差衰减后的加权平均。两个超参数
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。