
在 AI 研究界,一直有一个令人沮丧的“魔咒”:很多号称能自主做实验、写代码、打 Kaggle 比赛的 AI Agent(智能体),在算力堆到一定程度后,性能往往会陷入停滞,甚至出现倒退。
论文名称:AIRA2: Overcoming Bottlenecks in AI Research Agents
论文链接:https://arxiv.org/pdf/2603.26499
这种现象被很多研究者归咎于“过拟合”——认为 AI 在长时间的搜索中,记住了测试集的特征而非学会了通用的逻辑。但 Meta FAIR 实验室最近的一项研究 AIRA²(Overcoming Bottlenecks in AI Research Agents)却给出了一个反直觉的结论:Agent 表现不好,可能不是因为它太聪明学会了“投机取巧”,而是因为你的架构太简陋、评估信号太脏。

作者们甚至在论文开头幽默地标注:作者排序是靠打《马里奥赛车》决定的。这种典型的 Geek 精神背后,是一套极为严谨且具有工程美学的 Agent 架构。AIRA² 不仅在 MLE-bench-30 榜单上刷出了 76.0% 的百分位排名新高,更重要的是,它证明了:只要工程做对了,AI 研究员的性能是可以随算力投入线性增长的。
在深入 AIRA² 的设计之前,我们需要理解现有的 AI 研究 Agent 究竟撞到了哪三棵树上:
吞吐量瓶颈(串行死结):
多数 Agent 是串行工作的。AI 提出一个想法,写代码,上 GPU 跑实验,等结果,再想下一个。这种“单线程”模式让 Agent 像个老牛拉破车,根本无法发挥大规模计算集群的搜索优势。

泛化鸿沟(评估噪音):这是最致命的一点。很多 Agent 在搜索过程中,会基于验证集的反馈不断微调代码。然而,论文指出,这种反馈往往带有巨大的噪音。当 Agent 发现某个技巧能在验证集上提分时,它会疯狂往这个方向钻,最终在未见的测试集上崩盘。这看起来像过拟合,实则是“指标黑客(Metric Hacking)”行为。
算子局限(死板工具):
以前的 Agent 往往使用固定的 LLM 算子(比如:一个专门调参的 Prompt,一个专门改代码的 Prompt)。这种设计极其死板。科学研究是充满变数的,一个固定的提示词怎么可能应付得了从数据清洗到模型架构优化全流程的突发错误?
针对这三个痛点,AIRA² 并没有引入什么惊天动地的算法创新,而是通过三项扎实的架构设计,完成了一次“工程致胜”。

AIRA² 引入了一个基于“稳态进化(Steady-state Evolution)”的编排系统。它不再是一个 Agent 在那里苦思冥想,而是一个 “总调度员 + 异步工人团” 。

每当有一个 GPU 工人空闲出来,调度员就会根据目前的“种群”(即已有的代码方案库)通过一种基于排名的采样算法选出一个父辈方案,扔给工人去“突变”(修改代码)。其选择概率遵循公式:
=
这里 是方案的排名, 是控制探索与利用平衡的“温度”。通过这种方式,AIRA² 实现了真正的并行探索。
这是 AIRA² 最具洞察力的贡献。为了防止 Agent 在搜索过程中被虚假的信号误导,作者提出了 HCE(Hidden Consistent Evaluation,隐藏一致性评估)协议。

其核心在于“隔离”:
这种设计有效地过滤了评估噪音。论文中举了一个扎心的例子:某个 Agent 在处理 Kaggle 比赛时,因为代码逻辑错误,导致评估函数对任何预测都返回 0(完美分数)。贪婪搜索的 Agent 瞬间如获至宝,死守着这个错误方案不再改进。而 HCE 协议通过多重交叉验证和隐藏信号,能让系统识破这种伪装,确保 Agent 始终朝着真正的泛化性能优化。

AIRA² 把那些死板的固定算子全部换成了 ReAct Agent。每一个“工人”现在都是一个多轮交互的智能体,它不仅能写代码,还能根据报错信息(Traceback)进行思考、假设、修改、再运行。

这种“动态作用域”的能力让 Agent 拥有了极强的纠错能力。对于复杂的科研任务,静态 Prompt 往往一次执行失败就结束了,而 ReAct Agent 可以在同一个生命周期内完成多次迭代。实验表明,这种设计在时间受限的情况下(比如 3 小时内)效率极高,性能提升了 5.5 个百分点。

在 MLE-bench-30 这个涵盖了 30 个 Kaggle 竞赛的硬核榜单上,AIRA² 展现出了惊人的成长性。


最令人振奋的结论来自其消融实验:此前学界担心的“长时间搜索导致过拟合”在 AIRA² 身上并没有发生。
从数据图中可以看到,AIRA² 的性能随时间(算力投入)呈单调上升趋势。这说明,所谓的“性能衰退”其实是架构缺陷导致的。当我们修复了评估信号的纯净度,并提供了足够的并行搜索能力后,Agent 的上限远比我们想象的要高。
AIRA² 的成功告诉我们,AI Agent 的研究正在从“Prompt Engineering(提示词工程)”转向“System Engineering(系统工程)”。
对于开发者来说,这篇论文提供了一个清晰的范式:不要试图写一个完美的 Prompt 来涵盖所有逻辑,而应该构建一个鲁棒的进化系统。让 Agent 在沙盒里自由碰撞,给它提供最干净的反馈信号,剩下的交给算力和时间。

当然,AIRA² 也并非全能。目前的 Agent 仍局限在 Python 和 Bash 的执行环境内。作者也承认,如果涉及到需要跨互联网搜索前沿文献、调用闭源 API 或进行复杂的物理模拟,现有的 ReAct 范式仍面临挑战。
但无论如何,AIRA² 已经向我们展示了一个迷人的未来:在不久的将来,实验室里最勤奋、最能抗压、最擅长从失败中总结经验的科研助手,可能不再是熬夜的博士生,而是那个在后台静默运行、不断自我进化的代码种群。
正如论文结尾所言,AIRA² 是朝着“自主科学发现”迈出的一大步。当工程的瓶颈被逐一敲碎,AI 的创造力才真正开始它在科研领域的“大航海时代”。