昨天凌晨,OpenAI 再次出手。
宣布新一代 GPT 4.1 系列模型上线,此次新模型分为3个版本 —— GPT 4.1(主力旗舰)、GPT 4.1 mini(高效轻量)、GPT 4.1 nano(超小型极速),目前只能通过 API 访问。
虽然发布节奏没有惊喜,但 GPT 4.1 的实际性能却让人眼前一亮。尤其是在成本和响应速度的双重压缩下,GPT 4.1 仍然在核心能力上实现了越级表现,直接逼退 GPT 4.5 预览版,OpenAI 也宣布将在三个月后下线后者。
这不是简单的版本更迭,更像是 OpenAI 为开发者量身定制的一个“提质减负”模型。
GPT 4.1 甚至在多项基准测试中“吊打”同门 GPT 4o 和 GPT 4.5。
对于此次 GPT 4.1 模型的命名,网友锐评:
比如在被称为真实编程能力“验金石”的SWE-bench Verified 测试中,GPT4.1 完成了 54.6% 的任务,直接比 GPT 4o 多出 21.4%,领先 GPT 4.5 26.6%。
OpenAI 还专门训练了 GPT 4.1 ,使其能够更好地遵循代码 diff 格式,这使得开发人员能够仅通过让模型输出修改过的行,而非重写整个文件,从而节省成本并降低延迟。与此同时,OpenAI 将 GPT 4.1 的输出 token 限制提高到 32768 个token(显著高于 GPT 4o 的 16384 个token)。
在前端开发能力方面,GPT 4.1 相较于 GPT 4o 有了显著提升,能够构建功能更完善、界面更美观的Web应用。OpenAI用户调研数据显示,80%的付费用户更喜欢 GPT 4.1 创建的网页(左为4o创建的网页,右为4.1创建的网页)。
GPT 4.1 在遵循指令方面更加可靠,其在各种指令遵循评估中得到了显著的提升。
OpenAI 开发了一个用于评估模型指令遵循能力的内部评估系统,涵盖多个维度和几个关键类别,包括:
针对不同提示词,OpenAI 将提示划分为简单、中等和困难等级,其中 GPT 4.1 在面对困难指令的遵循方面,显著优于 GPT 4o 。
另外,根据 MultiChallenge 基准测试的数据,GPT 4.1 在多轮指令遵循能力方面相比 GPT 4o 提高了 10.5%。
IFEval 测试结果显示,GPT 4.1 的表现(87.4%)优于 GPT 4o(81.0%)。这项评估通过设置可验证的指令来进行,包括规定文本长度、限制特定词汇或格式等要求。
GPT 4.1 系列的图像理解能力非常强大,尤其是 GPT 4.1 mini,在图像基准测试中经常击败 GPT 4o。
长上下文性能对于多模态应用场景同样重要,例如处理长视频。在 Video-MME测试中,GPT 4.1 表现优异,准确率达到 72.0%,相比 GPT 4o 的 65.3% 有显著提升,达到了当前最先进的水平。
除了性能方面的提升,此次新推出的 GPT 4.1 把上下文处理能力扩展到百万级 token,这意味着 GPT 4.1 可以处理100万个 token 上下文,非常适合处理大型代码库或大量长文档。
此外,GPT 4.1 相较于 GPT 4o 在检索、记忆上下文信息方面更加精准。
为了测试模型检索、理解多条信息及信息间关系的能力,OpenAI还推出了一个名为 OpenAI-MRCR 的评估平台,如下👇。
OpenAI 还发布了一个用于评估多跳长上下文推理的数据集——Graphwalks。许多开发者在处理长上下文时的应用场景时,需要在上下文中进行多次逻辑跳跃,比如代码时在多个文件之间跳转,或者在回答复杂的法律问题时进行文档间的交叉引用。
根据 Graphwalks 数据显示,GPT 4.1 在多跳长上下文推理方面与 GPT o1 不相上下。
根据 OpenAI 发布的博客显示,GPT 4.1 的价格比 GPT 4o 便宜 26%,是 OpenAI 有史以来最便宜、最快的模型。对于重复传递相同上下文的查询,GPT 4.1 的提示缓存折扣提高到 75%(之前为 50%)。
有网友分别用 GPT 4.1、GPT 4.1 mini、GPT 4.1 nano、GPT 4.5 生成小球在旋转六边形运动的过程,根据测评可见,GPT 4.1 和 GPT 4.5 在此次测试中实力不相上下。
另外一些网友也在用 GPT 4.1 模拟多个小球在多边形框里弹跳的运动过程,通过生成效果来看,GPT 4.1 在测试表现中十分出色。