近日,苹果机器学习研究中心发表了一篇研究论文,称现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言。
苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。
研究发现,尽管这些模型具备生成详细“思考链”的能力,并在中等复杂度任务上表现出优势,但其推理能力存在根本性局限:当问题复杂度超过特定临界点时,模型性能会完全崩溃至“零准确率”。
当苹果将 "现有大模型全在记忆而非推理" 的重磅结论抛向 AI 江湖时,整个行业为之震颤。这场由四位图灵奖得主参与评审的研究,不仅撕开了 AI 皇帝的新衣,更将 "真正推理" 的终极命题推到聚光灯下。
在这个 AI 应用井喷的 2025 年,苹果的 "暴言" 究竟是技术颠覆的先声,还是行业焦虑的投射?
四大谜题击穿 AI 皇帝新衣
在斯坦福大学人工智能实验室,苹果团队设计的 "汉诺塔、跳棋交换、过河问题、积木世界" 四大谜题,正在成为 AI 模型的 "照妖镜"。通过精确控制问题复杂度,研究人员发现:传统大模型(如 Claude-3.7 无思维版本)表现更佳,准确率比推理模型高 18%;具备思维链的模型(如 DeepSeek-R1)展现优势,解题效率提升 30%;所有模型集体 "大脑宕机",准确率骤降至 0%,且随着复杂度增加,模型反而主动减少思考 token 数量,出现 "推理努力反向缩放" 现象。
更令人震惊的是,当向模型提供完整解题算法时,它们依然无法突破复杂度阈值。这表明,现有模型本质上是 "高级背题机",而非真正的推理引擎。
行业震荡:当 "思考" 沦为数据编织的 "仿真秀"
苹果的研究直指当前 AI 评估体系的致命缺陷:模型在 GSM8K 等基准测试中的高准确率,可能源于训练数据的重复记忆,而非真正理解。例如,更改数学题中的人名或数字,模型准确率平均下降 10%;现有评估仅关注最终答案,忽视中间推理的逻辑一致性。苹果发现,Claude-3.7 Sonnet 在汉诺塔问题中前 100 步表现完美,但在过河问题中第 4 步就出现逻辑断裂;
这场争议暴露出两大技术路线的博弈,OpenAI、谷歌等巨头仍坚信 "更大数据 + 更多算力" 能突破瓶颈。其 o1 系列模型通过增加参数和 token 预算,在部分复杂任务上实现小幅提升;苹果、DeepMind 等倡导从神经符号系统、因果推理等方向重构 AI。谷歌大脑创始人 Samy Bengio 参与的苹果团队,正在研发结合符号逻辑与神经网络的混合模型。
苹果的 "醉翁之意"
苹果的 "暴言" 背后,是其 AI 战略的深层焦虑,Apple Intelligence 多次跳票,Siri 升级因技术故障延期,新闻摘要功能因生成虚假信息被禁用;在 OpenAI、谷歌主导的 AI 生态中,苹果亟需通过技术批判建立差异化优势。
苹果的研究犹如一把双刃剑:既刺破了 AI"思考" 的幻象,也为行业指明了新的方向。当模型在汉诺塔问题中机械地重复记忆模式时,人类正在实验室里探索真正的推理机制。这场关于 AI 本质的追问,或许将催生下一代智能系统 —— 它们不仅能记住答案,更能理解问题本身。而苹果的 "暴言",可能正是这场革命的序章。
领取专属 10元无门槛券
私享最新 技术干货