OpenAI发布o3和o4-mini,以及全新编程助手
OpenAI刚刚发布了o3和o4-mini,这是他们迄今为止最智能的推理模型,现在配备了对所有ChatGPT工具的完全代理访问权限和"用图像思考"的能力——同时还推出了一个新的开源编程助手。
详情:
OpenAI o3是新的顶级推理模型,在编程、数学、科学和多模态基准测试中推动了最先进的性能表现。
o4-mini提供快速、高效的推理能力,显著超越了之前的mini模型,甚至在AIME 2025数学等基准测试中达到了饱和表现。
这两个模型都可以使用并组合ChatGPT内的所有工具(网络搜索、Python、图像生成等)作为问题解决过程的一部分。
这些模型也是首批能够"用图像思考"的模型,直接将视觉分析和操作整合到思维链中。
同时推出的还有Codex CLI,这是一个在用户终端中运行的开源编程助手,将推理模型与编程任务连接起来。
公司总裁Greg Brockman表示,这次发布是"面向未来的GPT-4级质的飞跃",这些模型能够产生新颖的科学创意。
无论AGI的门槛是什么,最新的顶尖模型似乎正在接近这一目标。虽然推理模型本身已经是一个巨大的飞跃,但为它们配备工具访问权限和多模态能力,已经产生了一类能够创造新想法的模型——这似乎将我们带到了OpenAI人工智能智能阶梯的第4步。
微软Copilot获得直接操作电脑的能力
微软刚刚在Copilot Studio中推出了新的"电脑使用"功能,使用户和企业能够构建可以直接操作网站和桌面应用程序的AI代理。
详情:
这项新功能允许代理通过点击按钮、选择菜单和在字段中输入内容来与图形用户界面(GUI)交互。
该过程为缺乏专用API的系统上的任务解锁了自动化,允许代理像人类一样使用应用程序。
"电脑使用"功能还利用内置推理能力实时适应界面变化,自动修复问题以防止工作流中断。
所有处理都在微软托管的基础设施上进行,企业数据明确排除在模型训练之外。
Copilot加入了OpenAI和Anthropic的电脑使用工具行列,标志着AI从聊天窗口转向日常软件的代理化转变又迈出了一步。虽然它不是唯一的UI自动化工具,但微软用户现有的业务工作流是利用这类功能的完美用例。
Claude获得自主研究能力
Anthropic刚刚推出了Claude的重大升级,引入了自主研究能力和Google Workspace集成,允许助手搜索网络和用户文件,以更好的上下文提供答案。
详情:
新的研究功能可以自主地在网络和用户连接的工作数据中执行搜索,提供全面、有引用的答案。
新的Google Workspace集成让Claude能够安全地访问用户的电子邮件、日历和文档,无需手动上传即可提供上下文感知的帮助。
研究功能目前在美国、日本和巴西的Max、Team和Enterprise计划中以测试版形式推出,Workspace集成向所有付费用户开放。
Anthropic在功能推出方面继续按照自己的节奏前进,给Claude提供了"深度研究"类型的功能,比其他主要实验室晚了不少。但正如我们在其他竞争对手身上看到的那样,网络搜索、用户数据集成和最先进模型的组合可以带来一些极其强大的结果。
领取专属 10元无门槛券
私享最新 技术干货