比GPT-4更智能！OpenAI新模型能创造科学新思想

文章来源：企鹅号 - AI技术新动态

OpenAI发布o3和o4-mini，以及全新编程助手

OpenAI刚刚发布了o3和o4-mini，这是他们迄今为止最智能的推理模型，现在配备了对所有ChatGPT工具的完全代理访问权限和"用图像思考"的能力——同时还推出了一个新的开源编程助手。

详情：

OpenAI o3是新的顶级推理模型，在编程、数学、科学和多模态基准测试中推动了最先进的性能表现。

o4-mini提供快速、高效的推理能力，显著超越了之前的mini模型，甚至在AIME 2025数学等基准测试中达到了饱和表现。

这两个模型都可以使用并组合ChatGPT内的所有工具（网络搜索、Python、图像生成等）作为问题解决过程的一部分。

这些模型也是首批能够"用图像思考"的模型，直接将视觉分析和操作整合到思维链中。

同时推出的还有Codex CLI，这是一个在用户终端中运行的开源编程助手，将推理模型与编程任务连接起来。

公司总裁Greg Brockman表示，这次发布是"面向未来的GPT-4级质的飞跃"，这些模型能够产生新颖的科学创意。

无论AGI的门槛是什么，最新的顶尖模型似乎正在接近这一目标。虽然推理模型本身已经是一个巨大的飞跃，但为它们配备工具访问权限和多模态能力，已经产生了一类能够创造新想法的模型——这似乎将我们带到了OpenAI人工智能智能阶梯的第4步。

微软Copilot获得直接操作电脑的能力

微软刚刚在Copilot Studio中推出了新的"电脑使用"功能，使用户和企业能够构建可以直接操作网站和桌面应用程序的AI代理。

详情：

这项新功能允许代理通过点击按钮、选择菜单和在字段中输入内容来与图形用户界面(GUI)交互。

该过程为缺乏专用API的系统上的任务解锁了自动化，允许代理像人类一样使用应用程序。

"电脑使用"功能还利用内置推理能力实时适应界面变化，自动修复问题以防止工作流中断。

所有处理都在微软托管的基础设施上进行，企业数据明确排除在模型训练之外。

Copilot加入了OpenAI和Anthropic的电脑使用工具行列，标志着AI从聊天窗口转向日常软件的代理化转变又迈出了一步。虽然它不是唯一的UI自动化工具，但微软用户现有的业务工作流是利用这类功能的完美用例。

Claude获得自主研究能力

Anthropic刚刚推出了Claude的重大升级，引入了自主研究能力和Google Workspace集成，允许助手搜索网络和用户文件，以更好的上下文提供答案。

详情：

新的研究功能可以自主地在网络和用户连接的工作数据中执行搜索，提供全面、有引用的答案。

新的Google Workspace集成让Claude能够安全地访问用户的电子邮件、日历和文档，无需手动上传即可提供上下文感知的帮助。

研究功能目前在美国、日本和巴西的Max、Team和Enterprise计划中以测试版形式推出，Workspace集成向所有付费用户开放。

Anthropic在功能推出方面继续按照自己的节奏前进，给Claude提供了"深度研究"类型的功能，比其他主要实验室晚了不少。但正如我们在其他竞争对手身上看到的那样，网络搜索、用户数据集成和最先进模型的组合可以带来一些极其强大的结果。

相关快讯