打开黑箱：大模型究竟如何一步步思考？

文章来源：企鹅号 - AI可可AI生活

当我们惊叹于大模型解数学题、写代码、做逻辑推理的能力时，一个根本性的问题始终悬而未决：它们内部究竟是怎么“想”的？

北大、斯坦福、清华等机构的研究者们系统梳理了这一领域的最新进展，围绕七个核心问题，试图揭开多步推理的神秘面纱。

一、隐式推理：模型脑中的“暗链条”

当模型不输出中间步骤、直接给出答案时，推理过程全部发生在隐藏层中。研究发现，Transformer的不同层承担着不同的计算角色：浅层负责识别“桥接实体”，深层负责完成最终推断。这意味着模型内部确实存在一条隐性的思维链，只是我们看不见。

但这种能力有天花板。理论和实验都表明，模型能隐式完成的推理步数，严格受限于其层数深度。层数不够，链条就会断裂。

更值得警惕的是，模型经常“抄近路”。它们会利用训练数据中的统计关联，直接从问题跳到答案，完全绕过中间推理。一旦移除这些捷径，模型准确率可能骤降三倍。这提醒我们：表面的正确答案，未必意味着真正的推理能力。

二、能力从何而来？

模型并非天生会推理。研究揭示了一个有趣的现象：推理能力往往通过“顿悟”突然涌现。模型可能在很长时间内只是死记硬背，然后在某个临界点突然学会泛化。

这种转变受多重因素影响：训练数据中组合性样本的比例、数据规模、以及优化过程中的复杂度控制。换言之，想让模型学会真正的推理，数据配方和训练策略都至关重要。

三、思维链为何有效？

让模型“说出”推理过程的思维链提示，在数学和逻辑任务上效果显著，但在常识推理上收效甚微，甚至可能帮倒忙。

思维链的威力来自三个层面：

第一，它突破了深度限制。每生成一个token，模型就获得一次额外的前向计算机会，相当于把固定深度的网络变成了可变深度的循环结构。

第二，它引入了模块化。复杂问题被拆解为独立子问题，大幅降低了学习所需的样本量。

第三，它让推理更鲁棒。模型更倾向于学习可泛化的解题模式，而非脆弱的统计捷径。

有趣的是，即使把思维链中的文字替换成无意义的填充符号，模型依然能解题。这说明思维链的核心价值在于提供额外的计算时间，语义内容反而是次要的。

四、思维链等于可解释性吗？

答案是否定的。大量证据表明，模型输出的推理步骤往往是“事后编造”，并非其真实决策过程的反映。模型会根据无关线索改变答案，却依然能编出看似合理的解释。

这种“不忠实”源于架构层面的根本矛盾：Transformer内部是高度并行、分布式的计算，而思维链是线性、顺序的表达。用一维的文字去描述高维的内部状态，信息损失在所难免。

五、未来何去何从？

研究者指出了五个关键方向：在真实场景中进行严格的因果验证；弥合思维链与内部计算之间的忠实性鸿沟；理解新兴的“潜在思维链”架构；开发基于内部机制的白盒评估指标；以及从被动解释走向主动控制。

理解机制，是为了更好地驾驭。当我们真正看清模型如何思考，才能构建更可靠、更可控的推理系统。

arxiv.org/abs/2601.14270

相关快讯