忘掉大模型，微软实证：小模型才是Agentic AI的未来！

文章来源：企鹅号 - 深度学习与NLP

过去两年，大模型在数学竞赛题上的飞跃主要靠Test-Time Scaling——把 CoT 拉长，再配大规模 RL。但“拼命堆长度”遇到两大天花板：

中间一步算错，后面越跑越偏；

模型只会“自我对话”，无法像人类一样写代码验算、调试、再反思。

微软rStar2-Agent给出的答案是：

把 Python 解释器直接接进 RL 训练循环，让14B 小模型在510 步 RL、一周时间、64 张 MI300X里，自己学会“写代码跑结果改思路”，AIME24 干到80.6%，比 671B 的 DeepSeek-R1 还高 0.8 分，而且，通用任务（Agentic Tool）也很强劲。

图 1：rStar2-Agent-14B 仅用 510 步 RL 即达数学AIME SOTA

尽管仅使用数学专项强化学习训练，rStar2-Agent-14B 在通用任务上依然表现强劲。比如Agentic Tool使用

方法：Agentic RL的规模化

基础设施：让 45K 并发代码执行不拖后腿

图 5：系统架构——Master 调度 + Worker 沙箱，隔离训练进程

隔离沙箱：每个代码跑在独立 Docker，死循环/线程泄露不影响训练。

异步批调度：把 64 个工具调用打包一次发，GPU 不用等 CPU。

KV-Cache 感知调度：动态给“剩余显存多”的 GPU 喂更多 rollout，彻底消灭“短对话等长对话”造成的空转。

结果：单步 45K 工具调用，平均延迟 0.3s，GPU 利用率提升 2.3×。

GRPO-RoC：只学“干净”的成功样本

图 4：GRPO-RoC 显著降低“答对但中间代码报错”的轨迹比例

Oversample 2GDownsample G：每题先采 32 条轨迹，再按“答案正确 + 工具错误少 + 格式干净”筛回 16 条。

负样本保留多样性：错误答案全保留，防止模型“只会一种死法”。

正样本质量优先：工具报错率 perr、格式违规 pformat 越低，越容易被留下。

好处：

不改奖励函数零 reward hacking 风险；

训练曲线更平滑，回答长度自动缩短 25%+。

训练配方：非推理 SFT + 三段式 RL

图 8：三阶段训练曲线——性能与平均长度同步增长

结果：14B 参数，全能选手

1 数学竞赛

更准：AIME24 刷新 SOTA；

更短：比同水平模型节省 30%+ 令牌；

更便宜：总 GPU 时≈ 2.4K 卡时（64 卡×1 周）。

2 泛化能力

仅做“数学”RL，也能在科学、工具调用上涨分！

发表于: 2025-09-162025-09-16 08:03:09
原文链接：https://page.om.qq.com/page/OmPVczsWyH25da2G3ZduE-JA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

忘掉大模型，微软实证：小模型才是Agentic AI的未来！

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐