OpenAI 最近放出的 o3 和 o4-mini 模型,它们的真实推理能力到底怎么样?
ARC Prize 基金会(一个致力于推动通用人工智能(AGI)发展的非营利组织,“看家法宝”——ARC-AGI 基准测试),对这两个新模型进行了首次公开的深度分析
ARC-AGI 的特点就是专门挑那些“对人来说简单,对 AI 来说贼难”的任务,以此来衡量模型真正的推理和问题解决能力,堪称 AGI 领域的“北极星”。每次有新模型加入测试,都能让我们更清楚地看到,AI 技术的前沿到底走到了哪一步
话不多说,直接上干货。这次 ARC 对 o3 和 o4-mini 的测试结果,总结下来有这么几点:
1. o3 在 ARC-AGI-1 上表现不错:o3-low(低推理设置)在 ARC-AGI-1 半私有评估集上得分 41%,o3-medium(中等推理设置)更是达到了 53%。但请注意,在更难的 ARC-AGI-2 上,两者的得分都没超过 3%
2. o4-mini 潜力可期,性价比突出:o4-mini-low在 ARC-AGI-1 上得分 21%,而o4-mini-medium达到了 41%,并且在效率方面达到了当前顶尖水平。同样,在 ARC-AGI-2 上,得分低于 3%
3. “高推理”设置覆盖不全:无论是 o3 还是 o4-mini,在尝试使用“高推理”设置(追求更深度思考)时,经常无法返回有效输出。虽然下面会提到一些部分结果,但因数据不完整,这些高推理的成绩并未被纳入官方排行榜
核心结论:尽管有进步,但 ARC-AGI-2 这个硬骨头,即便是 o3 的最强版本(medium)也啃不下来(得分 < 3%)。为了更细致地分析,测试也包含了 ARC-AGI-1,它的难度范围更广,还能直接和去年 12 月测试的 o3-preview 进行比较
ARC-AGI 排行榜 - 性能 vs 成本
不同模型在 ARC-AGI-1 上的得分与其完成任务的成本关系。这张图直观展示了 o3-medium 得分高但成本也高,o4-mini-medium 得分中等但成本效益极佳。o3-preview (Low/High) 之前的得分也有
ARC-AGI:不止是跑分,更是理解模型的工具
ARC-AGI 不仅仅是一套基准,它能有效“榨干”大模型(LLM)和大型推理模型(LRM)的推理极限,迫使它们进行更深层次的“思考”。而且,它的任务是可验证的,能清晰评估输出质量。
这里要区分一下:
•ARC-AGI-1:更早的版本,任务难度范围广,目前对模型区分度更敏感
•ARC-AGI-2(24年3月推出):下一代基准,引入了更复杂的符号解释、多重组合规则和需要更深抽象能力的任务,是为未来更强模型准备的。
用这两个工具,我们就能衡量前沿 AI 模型智能的“底层效率”。
重要背景:此 o3 非彼 o3-preview
还记得去年 12 月 OpenAI 搞“12 天”活动时,ARC 测试过的那个 o3-preview 吗?当时低算力版跑了 76%,高算力版更是惊人地达到 88%(在 ARC-AGI-1 上),刷新了测试时的算力记录。
但请注意,这次发布的公开版 o3 和当时的 o3-preview 有很大不同:
1.模型本身不同:生产版 o3 使用了与 o3-preview 不同的模型
2.能力不同:o3 支持多模态(视觉输入),而 o3-preview 只是纯文本。
3.算力限制:OpenAI 明确表示,生产版 o3 无法获得 o3-preview 测试时那么高的计算资源**。所以别期待结果一样
4.训练数据:o3-preview 的训练数据包含了 75% 的 ARC-AGI-1 数据集。而公开版 o3 没有被直接用 ARC-AGI 训练,但因为基准是公开的,可能存在间接接触
5.产品优化:公开版 o3 针对聊天和产品应用做了微调,这可能带来不同的优缺点。
测试方法与详细结果
这次,ARC 对 o3 和 o4-mini 在low、medium、high三种推理级别下都进行了测试。low倾向于速度和低 token 消耗,high则鼓励更彻底的思考过程。总共在 ARC-AGI-1 和 ARC-AGI-2 的 740 个任务上跑了 4400 多个数据点。
结果汇总表(简化版):
注意:o3-medium 在 ARC-AGI-1 测试中只返回了 100 个任务中的 93 个结果,剩余未返回的任务按错误计分。
“高推理”设置到底怎么了?
high模式结果标为 N/A,是因为它没能完成足够多的任务来支持可靠评分。多数情况下模型要么超时,要么直接失败。
更麻烦的是,少数成功返回结果的任务呈现出一种偏误:先完成的任务准确率更高,而后完成的(如果能完成的话)准确率较低。这意味着返回的结果并非随机样本,而是集中在模型相对“有把握”的任务上。那些在高算力下无法返回结果的任务,往往在低算力下也更难解决。
因此,直接报告这些零星的高推理结果会严重夸大模型的真实能力。
不过,本着透明原则,ARC 还是公布了观察到的数据(请务必谨慎看待,这些只是基于小样本、有偏数据的上限估计):
•o3-high (观察值):
• ARC-AGI-1: 完成 37/100 任务,准确率 82%
• ARC-AGI-2: 完成 15/120 任务,准确率 6%
•o4-mini-high (观察值):
• ARC-AGI-1: 完成 29/100 任务,准确率 89%
• ARC-AGI-2: 完成 11/120 任务,准确率 18%
再次强调:这些数字不具代表性,只是理论上的“天花板”。如果进行更全面的测试(假设模型能完成),分数很可能会下降。
目前来看,o3-medium 是公开可用的模型里最强的,而 o4-mini 则是最具成本效益的选择。所有公开任务的响应都可以在 Hugging Face 上找到,你也可以用 ARC 的模型基线测试工具复现结果。
一个有趣的发现是,o3-medium 53% 的得分,几乎是传统 CoT(思维链)方法在 ARC-AGI-1 上 30% 性能天花板的两倍。这背后是简单的模型放大还是更高级的采样/优化技术?目前还不得而知。
深入观察:为什么“高推理”不好使?
为了理解o3-high模式为何频频“掉链子”,ARC 分析了 Token 使用、运行时间和性能表现,发现了 3 个关键现象:
1.响应越早,准确率越高:模型更快返回结果(无论用时还是 Token 数)的任务,往往准确率更高。反之,耗时耗 Token 越多的任务,越容易失败。这暗示模型对简单任务能更快形成“确信”。或许,我们能从模型的行为模式(而不只是对错)来推断任务难度?
(成功率随 Token 增加而下降,错误答案通常消耗更多 Token)
2.“高推理”可能很低效:对比o3-medium和o3-high在相同任务上的表现,high模式完成同一个任务,总是消耗更多 Token。这意味着,在简单任务上,high模式可能带不来准确率提升,反而徒增成本。对成本敏感的用户,medium可能是更好的默认选项。当然,如果追求极致准确率且不计成本,high仍有其价值
(大量任务点落在对角线上方,表明 high 模式比 medium 模式用了更多 token 来解决同一个问题)
3.Token 输出速度 (tok/s) 差异不大,但有规律:分析发现,o3-low和o4-mini-low的吞吐量 (tok/s) 要高于它们各自的medium和high版本。这可能暗示了低设置版本在算法层面存在差异,但具体原因尚不清楚
(不同模型/设置下 Token vs Duration 的散点图,low 版本的斜率通常更陡峭,表示 tok/s 更快)
参考:
https://arcprize.org/blog/analyzing-o3-with-arc-agi
领取专属 10元无门槛券
私享最新 技术干货