前言:昨天,提到就 25 年 1 月发布的大模型就超 20 个;今天,OpenAl 推出了 L3 级智能体「Operator」能够像人类一样操作电脑执行复杂的任务。卷的不仅是技术了!
1月24日,凌晨 2 点,直播开始,Operator 发布。
OpenAI 放出大招!Maybe AI 真的要“替代”人工了,这或许也将成为未来迈出探寻 AGI 之路的新方向。OpenAl 推出的 Agent “ Operator(操作员)” 确实和名字很贴切,下面简单给大家聊聊这个智能体,再给大家说点新思考。
Operator 是 OpenAI 的一个研究预览版,基于 Computer-Using Agent(CUA)模型,结合了 GPT-4o 的视觉能力和强化学习,可通过截图解析与图形用户界面(GUI)交互。这种能力使 Operator 能够像人类一样使用计算机,使用键盘、鼠标操作电脑,执行复杂的任务。
在直播中可以看到 Operator 能自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务,最厉害的我觉得是下面几个实操!
↑PC订餐
↑根据图片要求,识别需求进行购物
↑具体实操的购买操作
当然 Operator 现在还不是一个完全态的样子,从直播的视频可以看到还是有小翻车,比如文本编辑不精确、交互局限性、对细节描述的依赖性等。但确实证明了或许 25 年即将迎来 AGI Level 3。同时总裁 Greg 也再一次强调,「 2025 年,就是智能体之年」。
技术就聊聊最核心的吧,CUA 技术以及对隐私的保护,下图是 Operator 一个自动化处理的 CoT,将任务文本和截图作为输入提供给 CUA,CUA 根据输入生成一系列动作。
CUA 的核心技术由三部分构成,
第一:视觉感知与推理,能通过处理屏幕截图分析界面内容,根据 CoT 推断下一步操作,在过程中会生成截图并记录操作日志,以便追踪和调整任务流程。
第二:多步骤任务规划,可以拆分复杂任务 Step by step 操作,并在过程中能实现自我纠错,如网站内容与预期不同,会尝试寻找替代方案。
第三:这个挺重点的,无需特定 API,CUA 摆脱了传统 AI 依赖 API 的限制。通过直接使用界面,它可以适应几乎所有网页和软件环境。
另外一个关键点是隐私安全,这个话题是 “Operator” 必须做好的。涉及到支付、登录等敏感操作,这个可没有翻车的容错率。
“Operator” 在设计中加入了多层安全保护机制,包括:
这些保护措施确保 “Operator” 不仅高效,而且安全可靠。
同时 OpenAI 团队还计划通过持续收集用户反馈,优化 CUA 的任务适配性和安全性能。
简单说了一下这个新的创新,也拉回视角,看看我们国内市场。在 InfoQ 研究中心发布的报告中,从平台类和垂直类的角度出发,盘点了近 50 个中国市场中的 AI Agent 产品,智能体不少,但现在针对不同交互任务的统一评测榜单还没有一个。接下来,我们也在创建 Agent 的评测框架和体系,大家敬请期待。
最后想聊聊实现 AGI 之路这个事情,这个也是我们 AGI-Eval 社区在探寻的事情,我们在思考如何助力模型实现 AGI,首先我们根据 OpenAl 给的分级以及思考,大概解读了一下每个分级的情况。
Level 1 级别我们社区一直在深耕,在能力体系上有 100+ 细分能力项,实现全面的评测维度;同时采用自动+人工评测的方式,评测准确率在 98% 以上,保证评测结果的准确率;构建 10W+ 量级私有数据,防止数据穿越,保证评测的置信度和公正性。
最终推出一个全面、准确、科学、公正的评测榜单
同时也在 Level 2 级别的模型评估上,推出了新的尝试,构建了私有的高难度数据集Math Pro Bench【https://agi-eval.cn/evaluation/Math%20Pro%20Bench】& OI Bench 【https://agi-eval.cn/evaluation/OI%20Bench】。
同时鉴于传统评测方式难以充分反映模型的真实水平,AGI-Eval 创新性地提出了人机协作评测模式。在这种模式下,参与者可以与最新的大模型共同完成任务,既有助于提高任务完成度又便于建立更加直观的区分度。
最近还推出10分钟Quiz人机产品化评测方案,待测模型需要在同一套 System prompt 下指导真实用户学习一个知识点并完成 Quiz,基于模型与用户的高质量多轮对话数据,产出更加高置信度的评测结论。
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,记得关注我们!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。