首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI能力极限之争|苹果“崩溃论”引发新质疑背后的科学真相

06.15

Science Partner

Bring you to the side of science

导  读

各位科学的小伙伴们,前不久,苹果研究团队在arXiv上发布了一篇论文,声称主流大语言模型(如Claude、Gemini等)在复杂推理解谜任务面前会出现“推理崩溃”。这一结论不仅在学界引发激辩,还被英国计算机科学家Lawsen的反驳论文《思维幻觉的幻觉》(The Illusion of the Illusion of Thinking)所挑战。Lawsen认为苹果团队的“崩溃”更多是实验设计和评估方式的错觉,并非大模型推理本身的极限。究竟AI的推理能力有多强,我们又该如何科学评价?本篇为您深度解读。

主笔 | 恒意

●                ●                ●

AI能力极限之争|苹果“崩溃论”引发新质疑背后的科学真相

“推理崩溃”之谜:苹果团队的研究为何引发争议?

2025年6月,苹果研究员Parshin Shojaee与Iman Mirzadeh在arXiv发表论文,设计出一系列经典解谜任务——如汉诺塔、渡河谜题等,测试当今最强语言模型在这些任务上的推理表现。研究将任务难度分为低、中、高三档,数据显示,模型在高复杂度任务上准确率“断崖式下滑”。苹果团队据此提出推理能力遇到“瓶颈”,甚至断言“没有发现正式推理证据,模型行为更像高级模式匹配”。这一结论立刻引发轰动,国内外科技媒体如The Verge、MIT Technology Review等均对此报道。

真相只是一场“错觉”?Lawsen为何提出异议

面对苹果团队“推理崩溃”论断,英国牛津AI研究员Alex Lawsen发表了题为《思维幻觉的幻觉》的系统评论。他强调,苹果的实验其实混淆了输出极限(即每次模型最多生成多少字)与推理极限。以汉诺塔为例,8盘及以上的复杂度下,要输出全部操作步骤,Claude模型早已达到输出上限。Lawsen发现,模型甚至在输出中明确标注“为节省长度,后续省略”,并非推理出错。此外,苹果实验还将“无解题目”算作模型失败,比如渡河谜题的“船太小无法完成”,模型理性拒绝解答却被评为“推理崩溃”。Lawsen用优化代码和算法性输出对模型重新测试,发现其在15盘汉诺塔等超高复杂度问题上依然具备严密的推理能力。

AI推理能力究竟应如何科学评估?

Lawsen的质疑让人重新思考:我们该如何科学地测试AI的推理能力?他指出,若仅仅用“枚举每一步骤并完整输出”衡量模型能力,实则受限于token输出上限,无法反映算法层面的真正推理。此外,实验应剔除数学上无解的题目,否则混淆了“无解”与“不会解”的概念。当前AI社区已开始反思,呼吁采用多样化结果表示(如代码、策略函数等)、问题可解性验证及分层评判标准。这不仅有助于更准确地刻画AI认知极限,也为模型训练及应用场景提供有价值的反馈。

“推理”与“输出”的鸿沟:AI的能力边界在哪里?

苹果与Lawsen之争实际上揭示了AI推理领域的一个核心矛盾——模型本身的推理能力与输出方式、评估体系之间存在明显“鸿沟”。正如一位专家所言,“就像你让象棋大师用电报逐步发来每一步棋谱,他一定会受限于电报长度,但这不等于他不会下棋。”当前主流大模型拥有强大的内部推理和规划能力,但受制于输出格式、评估维度,往往被“低估”了真实水平。未来,AI推理任务的评测体系必然向更科学、更智能化方向发展。

恒意说两句:让AI回归本质,推动科学评估

争议的背后,其实是AI科学精神的胜利。苹果团队大胆提出“推理崩溃”假说,推动了业界对AI认知边界的反思。但正如Lawsen等学者所呼吁的,科学的实验方法和评估体系必须尊重技术的本质。只有厘清“推理”与“输出”、“可解”与“误判”的边界,我们才能真正推动AI朝着更智能、更贴近人类思维的方向进化。对科技和AI抱有好奇心的各位科学小伙伴们,也应学会用更严谨的眼光去理解和评价每一项突破——真正的创新,往往在质疑与讨论中成长。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OYbkHBnAGf1ifAKgnfSrqmvA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券