首页
学习
活动
专区
圈层
工具
发布

什么是“人类的最后一场考试”?

截止25年3月,在HLE=Humanity’s Last Exam,人类的最后一场考试中,OpenAI的Deep Research获得了第一名,这大概率说明o3满血版(尚未正式推出),就是当下全世界最好的推理模型。

HLE是一种高难度推理与通用智力测试,可以测试当前最先进的人工智能、尤其是大语言模型在人类极限能力边界上的通用推理与智能水平。

它涵盖了人类智力任务中最具挑战性的部分,被用来衡量 AI 模型是否正在逐渐具备“类人智能”。

从图1可以看出,在2024年中到 2025年初,所有AI 模型的考试得分总体呈快速上升趋势,尤其是进入 2025 年后增长显著。

OpenAI Deep Research 与 Gemini 2.5 Pro 位居榜首,准确率接近 30%,也是唯二超过20%的。

但是,这个第一第二名的准确率,也就不到30%,而人类中的专家可以达到80%。

然而,一旦等到AI攻克这个最后一场考试(准确率至少80%甚至90%),就表明这个大模型已经在“封闭式、可验证问题以及前沿科学知识方面”达到了专家级表现。

但是,这并不代表大模型具备自主研究能力,或者说实现了AGI。

HLE 测试的是结构化学术问题,而不是开放式研究或创造性解决问题的能力,因此它更像是一项聚焦于技术知识和逻辑推理的测试。

图2-图6,是它的一些例题(胆小慎点)。

开发HLE测试的专家认为,25年底之前,就有模型可以至少达到50%准确率。

类似最后一场考试这样的测试,AI在成绩方面还有至少2-3倍的提高空间,也才是以后测评大模型需要重点关注的。

而类似MMLU和MATH测试等,基本所有主流大模型的成绩都已经达到了80%甚至90%以上,属于已经被AI征服的测试,基本无法衡量AI的进步了。

所谓的最后一场考试,或许是我们需要给予大模型的最后一场学术考试,但它绝不是 AI 所面对的最后一个评估基准。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OjgI2jJohH7LHOraSzl0lDxg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券