当前计算机使用智能体(CUA)的发展,主要依赖于大量昂贵的人工标注数据 。这极大地限制了它们在缺少现成数据的新颖或专业软件中的应用能力 。为了打破这一瓶颈,来自上海交通大学和香港中文大学的学者们提出了 SEAgent,一个全新的、无需任何人类干预,即可通过与环境交互来自主学习和进化的智能体框架。
SEAgent 的核心创新在于其闭环的自主进化框架、一个经过深度优化的评判模型,以及一套高效的 「专才 - 通才」 融合策略。
SEAgent 的核心:三位一体的自主进化框架
图 2. 总体算法概览
SEAgent 的自主进化能力,源于其内部三大核心组件的协同工作,形成了一个可持续的、自我驱动的学习闭环。
图 3:自动课程学习构建细节
构建更好的 「裁判」:世界状态模型的优化之路
一个精准的 「裁判」 是自主进化的基石。我们发现,现有的开源大视觉语言模型在评判智能体长序列操作时能力不足,当输入过多的历史截图时,其判断准确率甚至会下降 。为了解决这一核心问题,我们着手构建了一个更强大的评判模型 ——
世界状态模型 (World State Model)。
我们的优化策略主要有两点:
经过优化,我们的世界状态模型在性能上大幅缩小了与 GPT-4o 等商业模型的差距,为 SEAgent 框架提供了可靠、稳定的评判能力 。
图 4:算法流程伪代码
「专才 - 通才」 融合:超越个体极限的训练策略
在单个智能体的进化之上,我们探索了如何构建一个能操作多种软件的 「通才」 模型。我们发现,直接在多软件环境中训练一个 「通才」,效果并不理想,其性能甚至不如在单一软件上训练的 「专才」 模型 。
为此,我们提出了一套高效的 「专才到通才」(Specialist-to-Generalist)融合策略。该策略分为三步:
图 5:主要实验结果与多轮训练提升
实验结果证明,这一策略取得了巨大的成功。最终得到的 「通才」 智能体,其综合成功率达到了 34.5%,不仅远超直接训练的通才模型(30.6%),甚至超越了所有 「专才」 模型的性能总和(32.2%),展示了 「先专后通,融合进化」 的强大潜力。
系统赋能与实证
严谨的消融实验证明了这套算法设计的必要性。结果显示,高质量的 世界状态模型 是有效学习的前提;基于探索的 强化学习(GRPO) 显著优于单纯模仿;而能够从错误中学习的 对抗性模仿 机制则带来了关键的性能提升。
这套核心算法被置于一个更大的系统框架中,由 课程生成器 提供循序渐进的任务,并通过 「从专家到通才」 的策略,将多个单一软件的 「专家」能力融合成一个更强大的 「通才」 模型。最终,SEAgent 在 OSWorld 基准测试中取得了显著的性能飞跃,将基线模型的成功率大幅提升,充分验证了其算法框架的先进性与有效性。
本文第一作者是上海交通大学和上海人工智能实验室的联培博士生孙泽一,在 CVPR, ICCV, NeurIPS 上发表多篇论文,Google scholar citation 400 多次,目前的研究的兴趣是 GUI-Agent,多模态学习和强化学习。
© THE END
转载请联系本公众号获得授权