OpenAI刚刚在距离GPT-5.2发布不到三个月的时间里,又推出了GPT-5.4思维模型。这款被称为"处理复杂专业工作最有能力且高效的前沿模型"在测试中展现出了惊人的性能表现。
最令人震惊的是,根据OpenAI的测试数据,GPT-5.4在83%的情况下能够匹配或超越人类专业人士的工作表现。这一数字相比GPT-5.2的70.9%又有了显著提升。
性能大幅提升的背后
在整体性能方面,GPT-5.4相比GPT-5.2错误率降低了18%,在用户先前标记过事实错误的提示中,单个声明的虚假概率降低了33%。这意味着这个极其强大的人工智能在编造内容方面的频率进一步减少了。
GPT-5.4将通过API在周五提供,并将在ChatGPT付费版本和Codex中"逐步推出",这意味着大多数用户很快就能使用到这个新模型。
GPTval测试:衡量真实世界工作能力
为了评估AI模型在实际工作中的表现,OpenAI在9月引入了名为GPTval的新AI评估测试。这项测试专门用来衡量AI模型在"具有经济价值的真实世界任务"中的表现。
测试涵盖了9个行业和44个职业,这些行业的选择基于它们对美国国内生产总值贡献5%或以上的标准。每个行业都有独特的职业类别,测试选择了最多5个职业,这些职业的体力或手工工作占比不到40%,且在总工资和整体薪酬方面排名最高。
测试任务由各职业的资深专业人士设计,反映他们的日常工作内容。所有任务都经过多轮专家审查,最终形成每个行业的一系列经过充分审查的复杂任务。
例如,制造工程师的任务之一涉及设计夹具或固定装置,以简化地下采矿作业中电缆卷轴的收放操作。
每项测试的评分都由各职业的人类专业人士完成,评分者不知道结果是来自AI还是来自该领域的其他专业人士。此外,OpenAI还基于人类评分者的工作构建了自动评分系统,这样人类就不必花时间为AI模型的每次迭代评分。
令人担忧的快速进步
沃顿商学院生成式AI实验室副教授兼联合主任Ethan Mollick将GDPval测试描述为"可能是最具经济相关性的AI能力衡量标准"。
进步速度令人震惊。GPT-5.1在11月发布时GDPval得分为38.8%。仅仅一个月后的12月,GPT-5.2的性能爆炸式增长,几乎翻了一番,达到70.9%。
Mollick教授描述了GPT-5.2在GDPval上的重要表现:"在与人类专家的正面竞争中,在需要人类4-8小时完成的任务上,根据其他人类的判断,GPT-5.2有71%的时间获胜。"
现在,在3月初,距离GPT-5.2发布不到三个月,GPT-5.4在83%的时间里能够匹配或超越人类专业人士的表现!
这意味着几乎每次将同样的任务分别交给经验丰富的人类专业人士和GPT-5.4时,AI要么跟上了,要么超越了经验丰富的人类专业人士,至少根据评分者(可能是人类或AI)的判断是这样的。
对未来工作的影响
这种表现水平可能将我们引向两个方向。一方面,它可以帮助增强人类专业人士的能力,让有经验的人能够更快地完成更多工作。另一方面,它很可能被视为AI在高价值、高技能工作中取代人类的预兆。
Walleye Capital人工智能解决方案负责人Daniel Swiecki表示:"在我们最严格的内部金融和Excel评估中,GPT-5.4超越了之前的模型,准确性提高了30个百分点。这种可靠性的显著提升大大扩展了我们对基本面投资者模型更新和情景分析的自动化程度。"
未来可能不会完全是其中一种情况。但即使OpenAI为其最新发布的产品庆祝胜利,我们这些依靠在这些专业领域终身技能建设来养家糊口的人也必须退后一步,深深地担忧地呼吸,并希望获得最好的结果。
除了整体性能外,GPT-5.4在其他核心能力方面也有所改进。随着这项技术的不断发展,我们都需要学会适应和利用这些工具,无论是作为增强我们能力的助手,还是作为我们需要与之竞争的对手。
Q&A
Q1:GPT-5.4相比之前版本有什么重大改进?
A:GPT-5.4在专业工作测试中83%的情况下能匹配或超越人类专业人士,相比GPT-5.2的70.9%有显著提升。错误率降低了18%,虚假声明概率降低了33%。它被称为"处理复杂专业工作最有能力且高效的前沿模型"。
Q2:GPTval测试是如何评估AI能力的?
A:GPTval是OpenAI开发的测试,涵盖9个行业44个职业,专门衡量AI在"具有经济价值的真实世界任务"中的表现。测试任务由各职业资深专业人士设计,反映日常工作内容,评分由人类专业人士完成,评分者不知道结果来源是AI还是人类。
Q3:GPT-5.4对职场工作者意味着什么?
A:GPT-5.4的高性能表现可能带来两种结果:一是作为增强工具帮助专业人士提高效率,二是在某些高价值、高技能工作中取代人类。这要求工作者积极学习和适应AI技术,将其作为提升个人生产力的工具。