Meta 新作 AIRA² 告诉你：一套强悍的 Agent Harness 才是自动化科研的基石

唐国梁Tommy

发布于 2026-06-25 21:38:16

360

文章被收录于专栏：TGLTommyAI前沿技术论文TGLTommyAI前沿技术论文

在 AI 研究界，一直有一个令人沮丧的“魔咒”：很多号称能自主做实验、写代码、打 Kaggle 比赛的 AI Agent（智能体），在算力堆到一定程度后，性能往往会陷入停滞，甚至出现倒退。

论文名称：AIRA2: Overcoming Bottlenecks in AI Research Agents
论文链接：https://arxiv.org/pdf/2603.26499

这种现象被很多研究者归咎于“过拟合”——认为 AI 在长时间的搜索中，记住了测试集的特征而非学会了通用的逻辑。但 Meta FAIR 实验室最近的一项研究 AIRA²（Overcoming Bottlenecks in AI Research Agents）却给出了一个反直觉的结论：Agent 表现不好，可能不是因为它太聪明学会了“投机取巧”，而是因为你的架构太简陋、评估信号太脏。

作者们甚至在论文开头幽默地标注：作者排序是靠打《马里奥赛车》决定的。这种典型的 Geek 精神背后，是一套极为严谨且具有工程美学的 Agent 架构。AIRA² 不仅在 MLE-bench-30 榜单上刷出了 76.0% 的百分位排名新高，更重要的是，它证明了：只要工程做对了，AI 研究员的性能是可以随算力投入线性增长的。

为什么以前的 Agent 跑不动？

在深入 AIRA² 的设计之前，我们需要理解现有的 AI 研究 Agent 究竟撞到了哪三棵树上：

吞吐量瓶颈（串行死结）：

多数 Agent 是串行工作的。AI 提出一个想法，写代码，上 GPU 跑实验，等结果，再想下一个。这种“单线程”模式让 Agent 像个老牛拉破车，根本无法发挥大规模计算集群的搜索优势。

泛化鸿沟（评估噪音）：这是最致命的一点。很多 Agent 在搜索过程中，会基于验证集的反馈不断微调代码。然而，论文指出，这种反馈往往带有巨大的噪音。当 Agent 发现某个技巧能在验证集上提分时，它会疯狂往这个方向钻，最终在未见的测试集上崩盘。这看起来像过拟合，实则是“指标黑客（Metric Hacking）”行为。

算子局限（死板工具）：

以前的 Agent 往往使用固定的 LLM 算子（比如：一个专门调参的 Prompt，一个专门改代码的 Prompt）。这种设计极其死板。科学研究是充满变数的，一个固定的提示词怎么可能应付得了从数据清洗到模型架构优化全流程的突发错误？

AIRA² 的工程解法：异步、隐喻与交互

针对这三个痛点，AIRA² 并没有引入什么惊天动地的算法创新，而是通过三项扎实的架构设计，完成了一次“工程致胜”。

异步多 GPU 工人池：让进化永不停歇

AIRA² 引入了一个基于“稳态进化（Steady-state Evolution）”的编排系统。它不再是一个 Agent 在那里苦思冥想，而是一个 “总调度员 + 异步工人团” 。

每当有一个 GPU 工人空闲出来，调度员就会根据目前的“种群”（即已有的代码方案库）通过一种基于排名的采样算法选出一个父辈方案，扔给工人去“突变”（修改代码）。其选择概率遵循公式:

这里是方案的排名，是控制探索与利用平衡的“温度”。通过这种方式，AIRA² 实现了真正的并行探索。

HCE 协议：堵住“指标作弊”的后门

这是 AIRA² 最具洞察力的贡献。为了防止 Agent 在搜索过程中被虚假的信号误导，作者提出了 HCE（Hidden Consistent Evaluation，隐藏一致性评估）协议。

其核心在于“隔离”：

物理隔离： Agent 写的代码在容器 A 运行，评估逻辑在容器 B 运行。Agent 永远看不到测试集的标签，只能拿到一个最终的分数。
信号隔离： 搜索过程中使用的评估集（）与最终决定哪个方案胜出的验证集（）是完全解耦的。

这种设计有效地过滤了评估噪音。论文中举了一个扎心的例子：某个 Agent 在处理 Kaggle 比赛时，因为代码逻辑错误，导致评估函数对任何预测都返回 0（完美分数）。贪婪搜索的 Agent 瞬间如获至宝，死守着这个错误方案不再改进。而 HCE 协议通过多重交叉验证和隐藏信号，能让系统识破这种伪装，确保 Agent 始终朝着真正的泛化性能优化。