人工智能巨头 OpenAI 于今日凌晨正式发布两款新一代推理模型——o3 与 o4-mini,强调其「图像推理」与自主使用 ChatGPT 所有工具的能力,引发全球 AI 开发者社群热议,象征着该公司往「代理型 AI」再迈出跨出关键一步。
数学、编码等性能突破
o3 被定位为OpenAI目前最强的推理模型,专为复杂的数学、科学、代码撰写与图像逻辑任务设计,在SWE-bench Verified(软件工程基准测试)中实现了最先进的效能,得分为69.1%,领先Claude 3.7 Sonnet的62.3%。
o4-mini 则在保留高推理力的同时,兼顾成本与速度,成为开发者的轻量首选。 根据OpenAI的测试数据,o4-mini在AIME(美国数学竞赛)2024和2025的表现分别为93.4%和92.7%,超越了完整版 o3,成为当前准确率最高的模型; 在Codeforces比赛中获得2700分,跻身全球前200名顶尖工程师。
o3 与 o4-mini 延续 o 系列强调的推理导向训练方法,特别设计为「在回应前先思考更久」的模型架构,让 AI 不只是反应快,更能解决复杂、多步骤的问题。 这样的设计,也代表 OpenAI 持续走在「更多推理时间 = 更高表现」的技术脉络中,并于强化学习过程中验证该假设。
图像推理首度实现:AI 能「看懂图表、草图与PDF」
最引人注目的更新,在于两款模型首度具备图像推理能力。 o3 与 o4-mini 能理解并分析图像,低品质也可以,例如手写白板、模糊 PDF、草图与统计图表,并纳入多步推理流程。 这代表 AI 不仅能阅读与回应文字指令,更能「思考」图像背后的逻辑与关联,向真正的多模态代理系统迈进。
除了视觉理解能力提升,模型也能针对图像进行作,例如旋转、缩放或变形处理,使图像能成为推理链中的一环,解锁跨模态问题的新解法。
多工具整合:从「聊天」走向「解决任务」
两款模型皆能自主调用 ChatGPT 提供的各项工具,包括搜索、程序执行、DALL· E 图像生成与分析,实现从指令接收、信息撷取到视觉推理的一体化流程。
不同于以往被动执行的工具使用逻辑,o3 与 o4-mini 具备自主决策能力,能根据问题性质自动选择是否启用搜寻、程序执行或图像生成等工具,展现接近人类专家的工作流程。 这种灵活的策略应用方式,也让模型能根据输入动态调整处理顺序与内容,是朝「代理型 AI」迈进的重要里程碑。
OpenAI 并同步推出开源工具编程 Codex CLI,供开发者在本地终端整合 AI 协助完成代码撰写与除错。 Codex CLI 现已开源,并有百万美元规模的开发补助计划开放申请。
定价与可用性:o4-mini 具「高CP值」优势
o3 模型API价格为每百万输入 token 10 美元、输出 token 40 美元; 相较之下,o4-mini 仅需 1.10 美元与 4.40 美元,效能虽略逊一筹,却有压倒性成本优势。 ChatGPT Plus(20 美元/月)、Pro(200 美元/月)与 Team 用户现已可使用,企业与教育机构将于一周后开放。
OpenAI 通过 o3 与 o4-mini 明确展示「推理型 AI」的进化方向,不仅是语言能力的提升,更首次实现图像理解与工具作的整合。 这两款模型不只是单点更新,更是「ChatGPT 迈向代理 AI」的重要转折。 未来推出的 o3-pro(将于未来几周对 Pro 用户开放)与 GPT-5,若能整合此轮技术突破,将有机会定义下一个 AI 世代的产品标准。
领取专属 10元无门槛券
私享最新 技术干货