部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >大模型三阶段的 scaling laws 接力赛

大模型三阶段的 scaling laws 接力赛

原创
作者头像
立委
修改2025-03-03 11:23:54
修改2025-03-03 11:23:54
450
举报
文章被收录于专栏:deepseek腾讯云TVP

黄教主背后是三个S曲线,illustrate 的是大模型三个阶段的“做大做强”的 scaling 接力赛,颇显挖山不止的愚公移山精神。

我们知道,大模型有三个阶段:预训练、后训练、在线推理。过去几个月最大的改变是,业内基本有了共识,就是伊利亚宣称的说法,预训练时代结束了,著名的预训练的 scaling law 的经验法则貌似走到了头,进入平台期。于是有了推理模型(OpenAI O 系列,以及deepseek R 系列等)的兴起,强调的是后训练的思维链强化学习的投入以及对于在线推理时间(所谓 test time compute)的利用。推理模型也确实在数学、代码以及文字创造性方面展现了前所未有的亮眼成绩。

推理模型的后训练 scaling 刚开始,能走多远,还不清晰。但这个轨迹可以从 o1 变成 o3,以及 r1 到据说今后一两个月随时可能发布的 r2 等能力增强上,慢慢看到。最后这个推理阶段的 test time scaling 呢?

前阵子我跟国内最早鼓吹 scaling 三条S曲线的老友 Junlin (张俊林:从Deepseek R1看Scaling Law)说,根本就没看到什么 test time scaling 呀,因为用户不能掌控模型的 test time compute,它花多少时间/算力,啥时候完成我给它的指令任务,是大模型自己决定的,test time 并不是可以“伸缩”(scaling)的呢。Junlin说,目前确实如此。

这几天玩大模型 deep research,逐渐体会到一点 test time scaling 的伸缩可能性。答案的端倪出现了。说到底就是,如果一个query 或课题,有没有一条曲线表示,如果你给它更多的思考和响应时间,它就完成得更好。具体说,在 o3-mini 下,有一个 button 叫 deep research,用户可以选择用或者不用。如果不用,你的问题也会有思维链,因为你一开始就选择了已经后训练强化的 o3 推理模型。推理模型的思维过程通常是一两分钟吧。但是如果你同时又按下 deep research 按钮,它最终完成任务的推理时间是加n倍的等待时间,可以长达10来分钟。这至少让我们看到了,模型不变,但推理现场的缩放时间不同,其结果是不同的。这应该算是 test time scaling 的前序或影子了。

那它是怎么做到的呢?让用户可以根据自己的课题的难易或挑战性,以及自己可以容忍的等待时间,来对同一个课题做不同的 test time compute 的投入,以便生成不同的结果呢?原来,它用的是某种 agent 的思路。deep research 这个按钮所提供的功能,实际上就是一个研究性推理的 agent。agent 是 LLM-native 的附加 feature,但不需要改变模型,它所改变的是在推理阶段与用户的交互方式。目前这种交互非常简单,只有一轮,但所开辟的这个 test time scaling 方向,预计可以继续探索与用户更长更多的交互,来帮助最大化 test time compute 的效果。

如果 test time compute scaling 并不是很快就遇到瓶颈,可以想象将来的 deep research 可以与用户互动很长的时间去完成一个非常复杂的项目,也许不是分钟量级的推理时间投入了,完全可以想象大模型投入 hours 甚至 days 来完成一个高难课题,譬如一个人类研究员需要几个月甚至几年才能完成的项目,或者完成一个人类无法完成的研究项目。当前的 deep research 非常简单,它在得到用户的 prompt/query 后,立即分解问题,并反问用户五六个简单的问题,来确认这个研究所需要的资料来源、广度、深度以及注意事项。得到用户的反馈以后,模型开始接受用户更新的资料(if any),并用 search 来收集更多的相关资料,然后按照任务的分解以及与用户确认过的计划和信息,对于每一个来源做分析,最后综合贯通,形成研究报告。这样一来,它所需要耗费的推理时间自然就加长了,因为任务不再是单一的任务,资料也不仅仅是自己模型内部已经消化了的知识,而是现场搜索的更多来源,处理这一切都需要时间。

对于推理模型的后编辑阶段的强化学习以及它在推理阶段的 test time compute 的投入,这两阶段的 scaling 征程刚刚开始。希望这两条S曲线还可以稳定上升一段时间,让 scaling 的接力赛助力我们在通用智能(AGI)和超级智能(ASI)的道路上不断前行。

【相关】

张俊林:从Deepseek R1看Scaling Law

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档