首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

观点|苹果重磅研究揭示AI推理“幻觉”:大模型思考越多,反而越差,所谓“推理”只是“记忆重现”

在WWDC召开前夕,苹果低调发布了一项重量级AI研究,给当前火热的“推理大模型”(LRM)敲响了警钟。

photo by DALL·E3

研究团队将多个顶尖AI模型(包括Claude 3.7 Thinking、DeepSeek-R1、Gemini等)放入逻辑谜题实验室中,测试它们在“思考”能力上的真正表现。谜题包括汉诺塔、渡河、跳棋和积木世界等,复杂度可控、逻辑严密,是衡量模型推理力的“照妖镜”。

结果却出人意料:这些被寄予厚望的“思考型模型”,在面对简单任务时还能应付,但一旦复杂度提升,它们不仅准确率急剧下滑,甚至连基本的推理路径都生成不出来。

更讽刺的是——越难的问题,它们“思考”的token(推理过程中的文字标记)反而用得更少。这意味着:模型不是不会思考,而是根本“不想思考”了。

苹果总结了两种典型失败模式:

过度思考:简单问题上“瞎想”太多,反而犯错;

思维崩溃:复杂任务中直接卡死,不动脑了。

这背后的真相令人警醒:现在所谓的“思维链”、“自我反思”等技术,仍是统计学的幻术,而非真正的逻辑演绎。

这项研究的意义在于,它摧毁了一个AI界的“幻觉”:我们以为模型越拟人、越长文本,越能“模拟思考”,但实际它们只是训练数据的高级复读机。一旦任务跳出训练数据的舒适区,所有“聪明”就原形毕露。

这对整个行业是一次敲打。推理能力曾被认为是突破AGI的关键路径,各大厂商都在往这个方向下注。苹果的研究等于提醒我们:别再沉迷于模型生成的“思考假象”,而要回归理性,重新设计真正具备通用推理策略的系统。

最后一个值得注意的细节是:模型对训练数据依赖极高。出现频率高的“汉诺塔”表现好,而“渡河”这种稀有任务成绩惨淡——这也再次说明,现在的AI离“逻辑”与“理解”,还有很远的路。

photo by DALL·E3

本文写于2025年6月9日

连续日更的第435天,第460篇

⬆️关注我,一起在AI前沿探索⬆️

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OlCppDr6Mv0bw-cJwYkKldNg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券