截止25年3月,在HLE=Humanity’s Last Exam,人类的最后一场考试中,OpenAI的Deep Research获得了第一名,这大概率说明o3满血版(尚未正式推出),就是当下全世界最好的推理模型。
HLE是一种高难度推理与通用智力测试,可以测试当前最先进的人工智能、尤其是大语言模型在人类极限能力边界上的通用推理与智能水平。
它涵盖了人类智力任务中最具挑战性的部分,被用来衡量 AI 模型是否正在逐渐具备“类人智能”。
从图1可以看出,在2024年中到 2025年初,所有AI 模型的考试得分总体呈快速上升趋势,尤其是进入 2025 年后增长显著。
OpenAI Deep Research 与 Gemini 2.5 Pro 位居榜首,准确率接近 30%,也是唯二超过20%的。
但是,这个第一第二名的准确率,也就不到30%,而人类中的专家可以达到80%。
然而,一旦等到AI攻克这个最后一场考试(准确率至少80%甚至90%),就表明这个大模型已经在“封闭式、可验证问题以及前沿科学知识方面”达到了专家级表现。
但是,这并不代表大模型具备自主研究能力,或者说实现了AGI。
HLE 测试的是结构化学术问题,而不是开放式研究或创造性解决问题的能力,因此它更像是一项聚焦于技术知识和逻辑推理的测试。
图2-图6,是它的一些例题(胆小慎点)。
开发HLE测试的专家认为,25年底之前,就有模型可以至少达到50%准确率。
类似最后一场考试这样的测试,AI在成绩方面还有至少2-3倍的提高空间,也才是以后测评大模型需要重点关注的。
而类似MMLU和MATH测试等,基本所有主流大模型的成绩都已经达到了80%甚至90%以上,属于已经被AI征服的测试,基本无法衡量AI的进步了。
所谓的最后一场考试,或许是我们需要给予大模型的最后一场学术考试,但它绝不是 AI 所面对的最后一个评估基准。