首页
学习
活动
专区
圈层
工具
发布

微软发布了开源浏览器Agent,具备实时监控与管理智能体的功能,获得超过4200颗星的关注。

微软在其官方网站发布了一款名为 Magentic-UI 的开源浏览器网络任务智能体。该智能体是在之前微软开源的 Magentic-One 基础上进行开发的,支持通过人机协同的方式来提升执行效率和准确性。

根据GAIA测试结果显示,配备辅助信息的模拟用户时,Magentic-UI 的任务完成率从自主操作时的30.3%提升到了51.9%,同时准确率提高了71%。此外,Magentic-UI 在执行任务过程中,仅有10%的情况会向模拟用户请求帮助,且平均每项任务仅需约1.1次协助。

开源地址:https://github.com/microsoft/magentic-ui

Magentic-UI的核心优势之一在于其以人为中心的设计理念。不同于传统Agent注重完全自动化和机器自主执行任务,Magentic-UI更强调人与系统的深度互动与协作。在传统Agent的使用过程中,用户往往无法全面了解系统的操作细节和决策过程,且在出现异常时难以干预和纠正。

而Magentic-UI则通过人机协作模式,将人类的作用贯穿于整个任务执行环节,使用户能够实时监控Agent的行为,及时做出调整和指导,从而提升任务执行的灵活性与可靠性。这种设计不仅增强了用户对系统的掌控感,也创造了更高效且可信的工作流程。

在规划阶段,Magentic-UI强调与用户的协同合作,而非单纯依赖预设程序或算法来制定任务方案。系统首先通过与用户沟通,充分了解其需求和期望,然后生成一份初步的分步骤计划。用户可以借助计划编辑器或通过文本反馈的形式,对该计划进行直接修改。

用户能够根据自身经验和对任务的理解,灵活地增删步骤、调整顺序,甚至重新编写部分内容,以确保计划更贴合实际需求。这种协同规划模式有效地融合了用户的专业知识和系统能力,从而提升了任务执行的质量与效率。

在任务执行阶段,Magentic-UI依旧保持与用户的紧密配合。系统会及时向用户展示即将采取的具体操作——例如点击某个按钮、输入信息或访问特定网页等,同时实时反馈网页上的相关信息,确保用户对进展一目了然并能做出必要的干预。

用户可以随时中断Agent的操作,并通过自然语言向Agent反馈问题、提出建议或进行纠正。此外,用户也可以直接接管浏览器操作,亲自完成某些步骤,随后再将控制权交还给Agent。这样的协同执行方式使用户能够及时发现并处理Agent在执行过程中可能出现的错误,避免任务失败或带来不良影响。

Magentic-UI还特别设立了“行动保护”机制,在执行可能产生不可逆后果的操作前,会主动请求用户确认。这类操作包括关闭标签页、点击可能带来副作用的按钮或提交表单等。用户可以依据自身判断决定是否批准Agent执行这些动作,从而有效降低因Agent盲目操作而产生的风险。与此同时,Magentic-UI通过沙盒技术将浏览器和代码执行器等工具运行在受保护的独立环境中,进一步保障操作安全,防范潜在的安全隐患。

关于Magentic-UI的框架,当用户提交一个自动化任务请求时,系统首先接收用户输入,这可能是简单的文本指令,也可能包含图像信息的复杂需求。系统的核心组件——协调器,基于强大的大语言模型(LLM)能力,生成一份详细的初步分步骤计划,明确指出需要访问的网页、执行的操作以及调用的辅助工具。

完成初步计划后,Magentic-UI不会立即执行,而是进入关键的协同规划阶段。用户可以通过直观的计划编辑界面对生成的任务步骤进行调整,包括添加、删除、调整顺序,甚至重新编写某些步骤,从而确保最终方案更符合实际需求和用户预期。

Magentic-UI能够即时响应用户的修改建议,结合用户反馈对任务计划进行调整。这种互动保证了用户的专业知识和期望能够充分融入规划环节,从而提升任务的准确性和执行效率。

在用户确认或调整后,计划进入执行阶段。整个执行过程保持高度透明且协作,系统会实时向用户展示即将执行的具体操作内容,如点击某个按钮、输入搜索词或访问特定网页。同时,Magentic-UI也会持续反馈网页上的相关信息,帮助用户及时掌握进展情况。

用户可以随时中止Magentic-UI的操作,通过自然语言提供反馈以指出问题或提出改进建议。如果认为需要,用户还可以直接接管浏览器,亲自完成某些环节,再将控制权交还给系统。

此外,Magentic-UI具备自我学习能力。任务完成后,它会根据用户反馈和执行情况不断优化和积累分步骤计划,构建一个不断丰富的计划库,提升未来任务的执行效果。

在未来的使用中,当用户提交类似以往的任务时,Magentic-UI能够迅速查找并应用已有的相关计划,显著提升任务处理的效率。此外,用户可以随时访问并编辑已保存的计划,根据实际需求进行调整和优化,以更好地适应各种任务环境。

目前,Magentic-UI在GitHub上已获得超过4200颗星的关注,同时其采用MIT许可证,支持商业用途。

·

欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。

·

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oog2_Fb8e6Vm7mR0GtqdOYbA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券