过去两年,大模型在数学竞赛题上的飞跃主要靠Test-Time Scaling——把 CoT 拉长,再配大规模 RL。但“拼命堆长度”遇到两大天花板:
中间一步算错,后面越跑越偏;
模型只会“自我对话”,无法像人类一样写代码验算、调试、再反思。
微软rStar2-Agent给出的答案是:
把 Python 解释器直接接进 RL 训练循环,让14B 小模型在510 步 RL、一周时间、64 张 MI300X里,自己学会“写代码跑结果改思路”,AIME24 干到80.6%,比 671B 的 DeepSeek-R1 还高 0.8 分,而且,通用任务(Agentic Tool)也很强劲。
图 1:rStar2-Agent-14B 仅用 510 步 RL 即达 数学AIME SOTA
尽管仅使用数学专项强化学习训练,rStar2-Agent-14B 在通用任务上依然表现强劲。比如Agentic Tool使用
方法:Agentic RL的规模化
基础设施:让 45K 并发代码执行不拖后腿
图 5:系统架构——Master 调度 + Worker 沙箱,隔离训练进程
隔离沙箱:每个代码跑在独立 Docker,死循环/线程泄露不影响训练。
异步批调度:把 64 个工具调用打包一次发,GPU 不用等 CPU。
KV-Cache 感知调度:动态给“剩余显存多”的 GPU 喂更多 rollout,彻底消灭“短对话等长对话”造成的空转。
结果:单步 45K 工具调用,平均延迟 0.3s,GPU 利用率提升 2.3×。
GRPO-RoC:只学“干净”的成功样本
图 4:GRPO-RoC 显著降低“答对但中间代码报错”的轨迹比例
Oversample 2GDownsample G:每题先采 32 条轨迹,再按“答案正确 + 工具错误少 + 格式干净”筛回 16 条。
负样本保留多样性:错误答案全保留,防止模型“只会一种死法”。
正样本质量优先:工具报错率 perr、格式违规 pformat 越低,越容易被留下。
好处:
不改奖励函数 零 reward hacking 风险;
训练曲线更平滑,回答长度自动缩短 25%+。
训练配方:非推理 SFT + 三段式 RL
图 8:三阶段训练曲线——性能与平均长度同步增长
结果:14B 参数,全能选手
1 数学竞赛
更准:AIME24 刷新 SOTA;
更短:比同水平模型节省 30%+ 令牌;
更便宜:总 GPU 时≈ 2.4K 卡时(64 卡×1 周)。
2 泛化能力
仅做“数学”RL,也能在科学、工具调用上涨分!