首页
学习
活动
专区
圈层
工具
发布

忘掉大模型,微软实证:小模型才是Agentic AI的未来!

过去两年,大模型在数学竞赛题上的飞跃主要靠Test-Time Scaling——把 CoT 拉长,再配大规模 RL。但“拼命堆长度”遇到两大天花板:

中间一步算错,后面越跑越偏;

模型只会“自我对话”,无法像人类一样写代码验算、调试、再反思。

微软rStar2-Agent给出的答案是:

把 Python 解释器直接接进 RL 训练循环,让14B 小模型510 步 RL一周时间64 张 MI300X里,自己学会“写代码跑结果改思路”,AIME24 干到80.6%,比 671B 的 DeepSeek-R1 还高 0.8 分,而且,通用任务(Agentic Tool)也很强劲。

图 1:rStar2-Agent-14B 仅用 510 步 RL 即达 数学AIME SOTA

尽管仅使用数学专项强化学习训练,rStar2-Agent-14B 在通用任务上依然表现强劲。比如Agentic Tool使用

方法:Agentic RL的规模化

基础设施:让 45K 并发代码执行不拖后腿

图 5:系统架构——Master 调度 + Worker 沙箱,隔离训练进程

隔离沙箱:每个代码跑在独立 Docker,死循环/线程泄露不影响训练。

异步批调度:把 64 个工具调用打包一次发,GPU 不用等 CPU。

KV-Cache 感知调度:动态给“剩余显存多”的 GPU 喂更多 rollout,彻底消灭“短对话等长对话”造成的空转。

结果:单步 45K 工具调用,平均延迟 0.3s,GPU 利用率提升 2.3×。

GRPO-RoC:只学“干净”的成功样本

图 4:GRPO-RoC 显著降低“答对但中间代码报错”的轨迹比例

Oversample 2GDownsample G:每题先采 32 条轨迹,再按“答案正确 + 工具错误少 + 格式干净”筛回 16 条。

负样本保留多样性:错误答案全保留,防止模型“只会一种死法”。

正样本质量优先:工具报错率 perr、格式违规 pformat 越低,越容易被留下。

好处

不改奖励函数 零 reward hacking 风险;

训练曲线更平滑,回答长度自动缩短 25%+。

训练配方:非推理 SFT + 三段式 RL

图 8:三阶段训练曲线——性能与平均长度同步增长

结果:14B 参数,全能选手

1 数学竞赛

更准:AIME24 刷新 SOTA;

更短:比同水平模型节省 30%+ 令牌;

更便宜:总 GPU 时≈ 2.4K 卡时(64 卡×1 周)。

2 泛化能力

仅做“数学”RL,也能在科学、工具调用上涨分!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OmPVczsWyH25da2G3ZduE-JA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券