DeepSeek R1 的出圈是近来最大热度的焦点。它不仅在数学、代码等强推理能力上追平了 OpenAI 头部推理模型 o 系列,而且在语言文字的创造力和模仿力方面产生让人惊艳的效果。尤其是在中文(国学)的能力方面,大家都体会到了奇迹般的能力跃升。
这一切都要感谢推理强化的 CoT(思维链)。CoT 为什么这么有效,这么神奇,文理通吃,在强化中最大化了其赋能作用呢?
应该主要是因为 CoT 是从大模型自主生成出来的 tokens,它有效降低了从 query 到 answer 的 perplexity(困惑度),好比是为高质量结果提供了一个桥梁。看过CoT输出的同学都有体会,桥梁本身并不总是精彩,常常给人的感觉是小题大作,瞻前顾后、啰哩啰嗦、信息冗余,但精彩的answer却可以借助它面世。从第一性原理看,这里似乎涉及perplexity在信息论中的深刻含义。
这个观点为理解CoT提供了一个新的视角,把表面上的思维链“自言自语”诠释为信息论意义上的"熵减(entropy reduction)途径"。这对无须过程监督的结果驱动的强化学习是一个合理的解释:
过程很重要,但过程监督并不重要,因为大模型本身自然产生的过程数据,比任何人类监督更加实用和可行。
【相关】
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。