部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >推理强化模型中思维链的本质

推理强化模型中思维链的本质

原创
作者头像
立委
修改2025-02-08 08:28:59
修改2025-02-08 08:28:59
54600
代码可运行
举报
文章被收录于专栏:deepseek
运行总次数:0
代码可运行

DeepSeek R1 的出圈是近来最大热度的焦点。它不仅在数学、代码等强推理能力上追平了 OpenAI 头部推理模型 o 系列,而且在语言文字的创造力和模仿力方面产生让人惊艳的效果。尤其是在中文(国学)的能力方面,大家都体会到了奇迹般的能力跃升。

这一切都要感谢推理强化的 CoT(思维链)。CoT 为什么这么有效,这么神奇,文理通吃,在强化中最大化了其赋能作用呢?

应该主要是因为 CoT 是从大模型自主生成出来的 tokens,它有效降低了从 query 到 answer 的 perplexity(困惑度),好比是为高质量结果提供了一个桥梁。看过CoT输出的同学都有体会,桥梁本身并不总是精彩,常常给人的感觉是小题大作,瞻前顾后、啰哩啰嗦、信息冗余,但精彩的answer却可以借助它面世。从第一性原理看,这里似乎涉及perplexity在信息论中的深刻含义。

CoT的本质

  1. 从信息论角度理解:
  • CoT是在high-perplexity的query和answer之间搭建的低熵通道
  • 通过逐步分解,每一步的条件概率都变得更趋"自然"和丝滑,符合语言模型的本性
  • 最终让看似"跳跃"的推理结论,变成了一系列"小步走"的累积
  1. 用信息熵的视角来看:
  • 对于复杂问题,直接从query到answer需要跨越很大的信息鸿沟,这“迫使”模型以幻觉应急,胡乱输出一个 answer
  • 而CoT的每一步都在降低局部的条件熵
  • 就像把一个大的信息压缩/解码任务分解成多个小的压缩/解码任务
  1. 这解释了为什么"平庸"的CoT也如此有效:
  • 它的作用不在于过程步骤的内容本身有多精彩
  • 而在于它创造了一条信息熵递减的路径
  • 模型可以沿着这条路径稳定地向目标迁移
  1. 这也解释了为什么DeepSeek的训练如此有效:
  • 不是教会模型更"聪明"的推理,这在文科类任务中根本就无法定义
  • 而是优化了它构建这种低熵通道的能力
  • 本质上是优化了信息流的路径规划

这个观点为理解CoT提供了一个新的视角,把表面上的思维链“自言自语”诠释为信息论意义上的"熵减(entropy reduction)途径"。这对无须过程监督的结果驱动的强化学习是一个合理的解释:

代码语言:javascript
代码运行次数:0
复制
过程很重要,但过程监督并不重要,因为大模型本身自然产生的过程数据,比任何人类监督更加实用和可行。

【相关】

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • CoT的本质
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档