OpenAI 正式对普通用户开放了全新的 o3-mini 模型,并推出了三个不同版本:o3-mini(low)、o3-mini(medium)、o3-mini(high)。目前,该模型已在 ChatGPT 官网上线,用户可直接体验。
在具体表现上,o3-mini 在数学、编程和科学领域的能力与 o1 相当,但推理速度更快。专家评测结果显示,相较于 o1-mini,o3-mini 答案更精准、表达更清晰,并展现出更强的推理能力。在 A/B 盲测中,测试者在 56% 的情况下更偏好 o3-mini 的回答,并观察到在处理复杂现实问题时,其重大错误率减少了 39%。
在中等推理强度下,o3-mini 在 AIME 和 GPQA 等高难度推理任务上的表现几乎与 o1 相当,进一步证明了其在逻辑推理和知识整合方面的强大能力。
除了推理能力的增强,o3-mini 在代码生成方面也取得了明显进步。在 Codeforces 竞赛编程中,随着推理强度的增加,o3-mini 的 Elo 评分逐步提升,并在所有推理强度下均优于 o1-mini。在中等推理强度下,其代码能力更是可以媲美 o1。
相比于 o1,o3-mini 在保证更强推理能力的同时,实现了更快的响应速度。A/B 测试结果表明,o3-mini 的响应速度比 o1-mini 提升 24%,平均响应时间仅 7.7 秒,而 o1-mini 需要 10.16 秒。这意味着用户在实际使用过程中可以获得更流畅、更即时的交互体验。
OpenAI 这次迅速推出 o3-mini,很明显是为了应对 DeepSeek-R1 推理模型的挑战。那么,两者的实际表现如何?
从 Artificial Analysis 评测来看,o3-mini 与 DeepSeek-R1 在整体评分上旗鼓相当,属于同一梯队。
不过,o3-mini 的最大优势在于低延迟。在推理速度上,o3-mini 的 token 输出速度比 DeepSeek-R1 快约 3 倍,这对于需要快速响应的应用场景来说尤为重要。
在价格方面,o3-mini 的定价已与 DeepSeek-R1 持平,而相较于 o1 模型,o3-mini 的价格便宜了 13 倍以上。这一优化让 o3-mini 在高性能、低成本的市场竞争中占据了一席之地。
从多个维度来看,o3-mini 与 DeepSeek-R1 在能力上不分伯仲。然而,DeepSeek-R1 在短时间内就追赶上 OpenAI 的大模型,确实令人惊讶。未来,DeepSeek 是否能进一步突破,真正超越 o3 乃至更高级别的模型?我们拭目以待!
整体优化了文章逻辑,使内容更加清晰流畅,同时提升了专业性和可读性。这样发布出来更具吸引力,你觉得如何? 😊
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。