首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【AGI-Eval行业动态 NO.2】OpenAI打响今年卷应用第一棒,「Operator」之后还应该探索什么?

【AGI-Eval行业动态 NO.2】OpenAI打响今年卷应用第一棒,「Operator」之后还应该探索什么?

原创
作者头像
AGI-Eval评测社区
修改2025-03-18 10:24:38
修改2025-03-18 10:24:38
720
举报

前言:昨天,提到就 25 年 1 月发布的大模型就超 20 个;今天,OpenAl 推出了 L3 级智能体「Operator」能够像人类一样操作电脑执行复杂的任务。卷的不仅是技术了!

图片
图片

1月24日,凌晨 2 点,直播开始,Operator  发布。

图片
图片

OpenAI 放出大招!Maybe AI 真的要“替代”人工了,这或许也将成为未来迈出探寻 AGI 之路的新方向。OpenAl 推出的 Agent “ Operator(操作员)” 确实和名字很贴切,下面简单给大家聊聊这个智能体,再给大家说点新思考。

Operator 是 OpenAI 的一个研究预览版,基于 Computer-Using Agent(CUA)模型,结合了 GPT-4o 的视觉能力和强化学习,可通过截图解析与图形用户界面(GUI)交互。这种能力使 Operator 能够像人类一样使用计算机,使用键盘、鼠标操作电脑,执行复杂的任务。

在直播中可以看到 Operator 能自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务,最厉害的我觉得是下面几个实操!

图片
图片

↑PC订餐

图片
图片

↑根据图片要求,识别需求进行购物

图片
图片

↑具体实操的购买操作

当然 Operator 现在还不是一个完全态的样子,从直播的视频可以看到还是有小翻车,比如文本编辑不精确、交互局限性、对细节描述的依赖性等。但确实证明了或许 25 年即将迎来 AGI Level 3。同时总裁 Greg 也再一次强调,「 2025 年,就是智能体之年」

技术就聊聊最核心的吧,CUA 技术以及对隐私的保护,下图是 Operator 一个自动化处理的 CoT,将任务文本和截图作为输入提供给 CUA,CUA 根据输入生成一系列动作。

CUA 的核心技术由三部分构成,

第一:视觉感知与推理,能通过处理屏幕截图分析界面内容,根据 CoT 推断下一步操作,在过程中会生成截图并记录操作日志,以便追踪和调整任务流程。

第二:多步骤任务规划,可以拆分复杂任务 Step by step 操作,并在过程中能实现自我纠错,如网站内容与预期不同,会尝试寻找替代方案。

第三:这个挺重点的,无需特定 API,CUA 摆脱了传统 AI 依赖 API 的限制。通过直接使用界面,它可以适应几乎所有网页和软件环境。

图片
图片

另外一个关键点是隐私安全,这个话题是 “Operator” 必须做好的。涉及到支付、登录等敏感操作,这个可没有翻车的容错率。

图片
图片

“Operator” 在设计中加入了多层安全保护机制,包括:

  • 任务确认:在执行关键操作(如预订和支付)前,系统会请求用户确认。
  • 内容过滤:对于潜在有害任务(如购买武器),系统会直接拒绝。
  • 行为监控:系统内置类似杀毒软件的监控功能,检测异常操作并暂停任务。
  • 用户隐私:用户在操作过程中可以随时接管任务,“Operator” 无法访问接管期间的用户操作记录。

这些保护措施确保 “Operator” 不仅高效,而且安全可靠。

  • 人类监督机制:对于敏感任务(如输入密码),CUA 会请求用户确认,防止误操作。
  • 反欺诈措施:CUA 能够识别潜在的诈骗网站,并暂停操作。
  • 行为透明性:CUA 在操作每一步时都会生成截图,确保所有行为可追溯。

同时 OpenAI 团队还计划通过持续收集用户反馈,优化 CUA 的任务适配性和安全性能。

图片
图片

简单说了一下这个新的创新,也拉回视角,看看我们国内市场。在 InfoQ 研究中心发布的报告中,从平台类和垂直类的角度出发,盘点了近 50 个中国市场中的 AI Agent 产品,智能体不少,但现在针对不同交互任务的统一评测榜单还没有一个。接下来,我们也在创建 Agent 的评测框架和体系,大家敬请期待。

图片
图片

最后想聊聊实现 AGI 之路这个事情,这个也是我们 AGI-Eval 社区在探寻的事情,我们在思考如何助力模型实现 AGI,首先我们根据 OpenAl 给的分级以及思考,大概解读了一下每个分级的情况。

图片
图片

Level 1 级别我们社区一直在深耕,在能力体系上有 100+ 细分能力项,实现全面的评测维度;同时采用自动+人工评测的方式,评测准确率在 98% 以上,保证评测结果的准确率;构建 10W+ 量级私有数据,防止数据穿越,保证评测的置信度和公正性。

最终推出一个全面、准确、科学、公正的评测榜单

同时也在 Level 2 级别的模型评估上,推出了新的尝试,构建了私有的高难度数据集Math Pro Bench【https://agi-eval.cn/evaluation/Math%20Pro%20Bench】& OI Bench 【https://agi-eval.cn/evaluation/OI%20Bench】。

同时鉴于传统评测方式难以充分反映模型的真实水平,AGI-Eval 创新性地提出了人机协作评测模式。在这种模式下,参与者可以与最新的大模型共同完成任务,既有助于提高任务完成度又便于建立更加直观的区分度。

最近还推出10分钟Quiz人机产品化评测方案,待测模型需要在同一套 System prompt 下指导真实用户学习一个知识点并完成 Quiz,基于模型与用户的高质量多轮对话数据,产出更加高置信度的评测结论。

图片
图片
图片
图片

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,记得关注我们!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档