大家在使用DeepSeek R1的时候,估计会注意到,它在思考的时候通常会有类似于“嗯”这样的开头。
它的作用简而言之,它是为了:
为了降低开头时的语言生成不确定性。
因为大模型在生成的时候是一个字一个字的,也就是下一个字的生成是基于上一个字的,如果你要生成一篇作文,那么前面的字就决定了后面字生成的大致走向。
这里我们来举个小例子。
比如有一个续写的作业,要求我们根据「好久不见,你好」来进行续写,在你好后面补充一个字。我们可以想一下有哪些可能,可能是你好吗,你好高或者你好美。
其实对于AI来说也是一样的,它的输出也不是确定的,而是会根据上文来推测出下文。
对于这个例子,显而易见,后面跟的是“吗“,这就引申出了大模型的基本原理——它是一个概率模型,会根据上文来预测下文。
同样我们举例「小时候你就一小点,现在你好__」这个时候后面大概率跟的就是你好高。
我们来看DeepSeek的输出是否符合我们刚刚讲的这个基本原理。
当我们输入同样的上文时,可以看到它印证了我们的推测,说的是“你好高”。这就是AI大模型的思考方式。
它的思考过程也遵循类似的原理,所以开篇很重要,因为它确定了基调。“嗯”就代表了我收到了,等它几秒钟回复也符合常理,还有其他类似的回复,比如“啧”,“唔”,等等,都是先给反应。
我们可以把这个逻辑再往前推一步:
当用户提出一个复杂、开放式的问题时,比如“请解释一下黑洞的熵”,模型在生成第一个字时,面临的“可能性空间”是巨大的。它可以回答“当然”,也可以说“黑洞的熵是一个复杂的概念”,或者“根据广义相对论...”,每一个开头的有效选择都有很多。
这就在技术上造成了开局的高熵状态(HighEntropy),即高度的不确定性。模型需要从无数个貌似都合理的选项中,选择一个概率最高的来启动。
但“嗯”这种词不一样,它太灵活了。
嗯出来之后,可以有很多种选择,不管是会还是不会,都能圆回来。
“嗯”这个字,在这种场景下就成了一个绝佳的“概率锚点”。
高概率,低信息:在海量的对话训练数据中,人类在开始解释一个复杂问题前,说“嗯”的频率极高。因此,模型学到这是一个非常安全、高概率的起始选项。同时,“嗯”本身不携带任何具体的知识信息,它不承诺接下来要讲物理、历史还是哲学,这给了模型极大的灵活性。
降低后续生成难度:一旦“嗯”被生成出来,上下文就从 [用户的问题] 变成了 [用户的问题] 嗯,。对于模型来说,在 嗯, 之后接着生成“这个问题可以从...”或者“好的,我们来谈谈...”的概率,要远大于在没有任何铺垫的情况下直接生成它们。它成功地将一个不确定性极高的“冷启动”问题,转化成了一个路径更清晰的“续写”问题。
所以,“嗯”不仅仅是一个模拟人类的语气词,它更是一种技术上的策略,用来打破初始生成的僵局,锁定一个高概率的生成路径,从而让后续的文本能够更流畅、更稳定地组织起来。
它像是一个离合器,平稳地将“接收指令”状态切换到“生成内容”状态,有效规避了开局时因可能性过多而导致的“选择困难”。