满血 o1,千呼万唤始出来!
OpenAI 的 “圣诞大礼包” 在第一天便众望所归。不到 15 分钟的直播,亮点满满。
此次发布了可做多模态推理的满血版 o1 以及价格为 200 美元一月的 ChatGPT 大会员。
首场发布会,OpenAI 首席执行官奥特曼以及 o1 模型的带头人 Jason Wei 和 Hyung Won Chung 等人出席,介绍了 o1 预览版发布后三个月的显著提升。
毫无疑问,满血 o1 令人印象深刻。
·看跑分,满血版 o1 在数学和编程能力上更上一层楼;
·看性能,推理速度更快,思维更加简洁,响应时间比 o1-preview 快 60%,在处理复杂现实问题时准确率远优于 o1-preview,主要错误减少了 34%。
·此外,众人期待的多模态推理也正式上线。
满血版 o1:多模态推理惊喜亮相
满血 o1 除了在性能和准确率上有所提升之外。
最重要的亮点当属支持多模态输入,能够根据图片进行推理。团队进行了高难度题目的现场展示。
根据简笔的太空数据中心手绘图,估算这个托管 GPU 的数据中心最小的散热器表面积。
同时,根据 Prompt,o1 还需要阐述太阳能与深空环境的互动机制,解释热力学第一定律如何发挥作用。
仅仅 10 秒,o1 便准确完成作答,每个关键得分点都精准踩到,AI 的能力真的达到了博士水平。
目前,o1 已经全量上线。
o1 的下一步,是能够推理更多形态的内容,包括网页和文件上传,令人拭目以待。
200 美元一月的最贵 AI 订阅
ChatGPT Pro 订阅计划允许用户无限制访问 o1、o1-mini、GPT-4o 以及高级语音模式,还包括一个仅供 Pro 用户使用的 o1 版本,即 o1 pro mode。
然而,o1 pro 昂贵的价格遭到了许多网友吐槽。
使得奥特曼不得不出来澄清,他认为大多数用户使用 Plus 会员就足够了。
Jason Wei 在直播活动中表示,ChatGPT Pro 的目标用户群体将是那些在数学、编程和写作等领域充分利用和挑战 ChatGPT 模型能力的高级用户。
在 o1 的技术报告中,o1 Pro 无论是在数学竞赛 AIME 2024、编程竞赛 Codeforces,还是博士级科学推理问题 GPQA Diamond 等竞赛里,都击败了普通满血版。
而且,OpenAI 为了突出 o1 专业模式(Pro Mode)的主要优势 —— 改进的可靠性,采用了更严格的评估标准,一个模型只有在四次尝试中四次都正确回答问题(“4/4 可靠性”)时,才被认为解决了该问题,而不仅仅是一次答对就算成功。
虽然满血 o1 非常惊艳,但不一定能满足所有人的需求。
有人质疑奥特曼,说好的 AI 没有墙呢?
奥特曼回复说,这只是 12 天中的第一天。
未来,OpenAI 的 “圣诞礼包” 是否会带来更多震撼,令人充满期待。
目前,o1 已经全量上线。o1 的下一步,是能够推理更多形态的内容,包括网页和文件上传,令人拭目以待。
领取专属 10元无门槛券
私享最新 技术干货