文章/答案/技术大牛

发布

实测OpenAI发布的o3和o4-mini模型

文章来源：企鹅号 - 算法一只狗

在4月16日晚，OpenAI 发布了两款全新推理模型——o3 和 o4‑mini。o3 被定位为公司迄今最强大的推理系统，拥有前所未有的多模态理解和图像推理能力；而 o4‑mini 则是一款轻量化、高效、低成本的推理模型，专为数学、编码和视觉分析等任务优化设计。

那么o3、o4-mini和GPT-4.1到底有什么区别呢？这张图可以很好的总结下来：

推理 vs. 速度

o3 在推理能力上评分最高，但速度是最慢的，适合对思考深度要求极高且可接受较慢响应的场景。

o4‑mini / GPT‑4.1 都给了响应较快；其中 o4‑mini 价格最低，GPT‑4.1 智能能力更强。

价格梯度

o4‑mini ≪ GPT‑4.1 ≪ o3，输出 token 单价差距最大（4.4840 美元）。

上下文窗口

GPT‑4.1 直接拉到百万级（≈1.05 M），远超另两款 200k；如果要“整本书喂给模型”，优先使用GPT-4.1

输出长度 o 系列可到 100k token，GPT‑4.1 为 32 k

多模态支持

三者均支持文本输入 / 输出；也支持图片的输入和输出。

按惯例，再来具体看看o3和o4-mini跑分情况

数学能力大幅度的增强，尤其在AIME 2025中，o4-mini达到了92.7%的准确率。编程测试中，o4-mini获得了2719的分数，都已经比o3分数要高了。

这里还有一个特别重要的敌方在于，在”Humanity’s Last Exam“跨学科专家级问题中，通常都需要调用多种工具去解决一个问题，OpenAI的Deep Research中分数在26.6，而o3由于引入了调用工具的能力，分数也干到了接近25，确实说明推理模型在解决这类复杂问题的时候有明显的提升。

而下面这个图，则显示了随着推理成本的增加，o4-mini 的表现明显优于 o3-mini，比如在AIME2025中，推理成本越高时，o4-mini的效果已经超过了o3-mini。

目前o3和o4-mini两个模型相比以前我觉得最大的改变就是可以进行“网页搜索”和“图像输入分析”。

网页搜索功能 + 工具调用测试案例

地图路线图测试

比如测试o3帮我坐地铁，它能够在推理过程中，帮助我快速的找到正确的答案：

最后结论是比较容易找到最佳路线的：

常规内容对比搜索总结

比如你自己想做最近多个大模型的能力对比图，那么就可以直接问题具体的内容：

为我提供 o3 和 o4-mini 两个模型在 benchmark 的分数，同时也对比一下gemini2.5的分数

它首先根据我的问题进行了网页搜索：

最后做出了几个模型在多个基础测试集上的对比图，全程都不需要我自己一个一个资料去查：

由于 o3 目前已经具备了工具调用能力，直接让它帮我生成一个雷达图：

它在生成的过程中，本质上就是调用了 python 工具生成雷达图，这样的问题对于大模型确实已经比较简单了：

这样的功能其实就类似于perplexity，相当于把这些网页搜索+总结的软件都给一件替代了

图片理解测试

简单的模型理解

对于图片的解析，它能够在推理过程中，逐渐放大对应的图片，然后更加精细化的进行总结，比如就拿上面的三个模型对比图来让它给我分析，可以发现在推理过程中能够读取图片信息：

它就像人看图片一样，先看全部，然后再看局部的图片信息，很符合人的注意力感官。

给一张图片找地点

首先简单的给出一张图片，让它帮我们找一下具体的地点在哪里

然后它就开始思考，搜索了很多内容之后，他开始分析图片的局部特征，与搜索到的内容进行比对

最后再总结所有的信息给出结论：

在我看来，o3抹平了LLM和智能体的界限。它让语言模型不再只是单纯地处理文本，而是能像智能体一样感知环境、做出决策并执行任务。

看来什么 Agent 都是炒作，只要大模型的推理能力够强，Agent 的能力确实不值得一提。

再给它上升一点难度，给定一个暂时还没有的建筑，这个建筑正在建。

最后结论已经是基本接近了，确实图片找地点感觉有点强过头了

当然，其实很多多模态大模型都有根据图片识别位置的能力，GeoBench就是这样一个榜单

目前 o3 排名在第 7 名。可以看到第一名其实是谷歌的 Gemini 模型，这是因为谷歌本身就拥有大量的地图信息，很多人就猜测谷歌最新的 Gemini2.5 pro 就用到了位置和地图信息去大规模训练。

代码走迷宫

视觉推理+python代码走迷宫，实现的完成度也很高。

最后它给出了python代码，并画出了走迷宫的路线图

写在最后

从 o3 和 o4-mini 的发布可以看出，OpenAI 正在加速推动语言模型向智能体形态转变的进程。在过去，我们常说“大模型是大脑，Agent 是身体”，但现在 o3 本身已经具备了感知环境、调用工具、决策执行的能力，一体化模型正在成为主流。

未来的趋势或许就是——你无需再训练自己的 Agent，只需要选一个能看图、能联网、能思考的大模型，它就是你的万能助手。

接下来的问题，不再是“谁家模型大”，而是“谁家的模型更聪明、更省钱、能替我解决更多问题”。

发表于: 2025-04-222025-04-22 08:30:42
原文链接：https://page.om.qq.com/page/ORx6JoO4KvP37PuC6wptm4ZA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

实测OpenAI发布的o3和o4-mini模型

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐