前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >解密prompt系列40. LLM推理scaling Law

解密prompt系列40. LLM推理scaling Law

原创
作者头像
风雨中的小七
发布于 2024-10-10 00:17:22
发布于 2024-10-10 00:17:22
5080
举报

OpenAI的O-1出现前,其实就有已经有大佬开始分析后面OpenAI的技术路线,其中一个方向就是从Pretrain-scaling,Post-Train-scaling向Inference Scaling的转变,这一章我们挑3篇inference-scaling相关的论文来聊聊,前两篇分别从聚合策略和搜索策略来优化广度推理,最后一篇全面的分析了各类广度深度推理策略的最优使用方案。

广度打分策略

Are More LM Calls All You Need? Towards the Scaling Properties of Compound AI Systems

第一篇论文的出发点比较简单,简单说就是论证Inference Ensemble是否有效,既让模型多次回答同一个问题,再通过voting或filter-voting等不同的ensemble打分策略对答案进行投票,分析对回答准确率的影响。这里filter vote借助以下LLM prompt对推理得到的答案进行筛选再做major votte

代码语言:plaintext
AI代码解释
复制
[User Question]: {query}
[Answer]:{answer}
Instruction: Review your previous answer and find problems with your answer. Finally, conclude with either ’[[correct]]’ if the above answer is correct or ’[[wrong]]’ if it is incorrect. Think step by step.
Verdict:

论文在MMLU和QA等有标准答案的数据集上进行了测试,结果得到了下图非单调的曲线,会发现随着推理次数的上升,不论是vote还是filter vote的回答准确率都是非单调的,其中vote会先上升在下降,filter vote的表现在不同数据集上存在差异。这里我们就看下major vote,毕竟filter vote又引入一步模型推理所以其实有两层变量。

回到了最熟悉的data analysis领域,U-Shape,∩-shape模式多数情况下都是因为数据中存在多个表现各异的分组,有的组内指标先上升后稳定,有的组内指标稳定下降,多个小组的指标汇总后就会出现,先升后降或者先降后升的模式。所以这种U-Shape,∩-shape模式的解决思路就是寻找那个可以显著区分指标走势的confounder变量。

论文定位到的confounder变量是Query难度,使用一个问题最终能否被回答作为衡量这个问题难度的定义。其实个人认为不是query难度,而是该问题在模型内化知识空间中对的答案和错的答案本身的概率分布,当模型更高的概率得到正确答案时,更多的LLM推理和major vote才能生效。所以随着推理次数增加简单问题的回答准确率先上升后趋于平稳,而复杂问题的准确率持续下降,合并起来就出现了先升后降的趋势。

第一篇论文其实是用来做个首尾呼应,这里论文发现了Query难度会影响推理打分策略的效果,和后面谷歌的推理策略最优化不谋而合。

广度搜索策略

REBASE:An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

广度推理策略,其实包含两个部分一个是如何生成推理链路(搜索策略),一个是如何对推理链路进行打分

  • 广度搜索:包括像前一篇论文直接随机采样生成多个推理,还有更复杂类似TOT,MCTS的树形多步推理
  • 打分:包括major vote,filter major vote, weighted major vote,还有基于reward打分的best-of-n(包括基于结果的ORM和基于过程的PRM)

前面一篇论文说了major vote等打分策略,但搜索策略只用了简单的多次随机推理,这里我们再看一篇对搜索策略进行优化的论文REBEASE。论文采用了树形搜索,在搜索逻辑上REBEASE和TOT相似,通过实验提供了推理准确率和推理成本之间balance的一些insight。

树形搜索的流程如下,

  • 第一步针对问题生成N个候选答案,推理Budget=N
  • 使用PRM模型对N个候选推理步骤进行打分,同时使用模型判断这N个候选步骤中是否有推理完成的节点,如果有C个节点推理完成,则budget-=C
  • 对未完成的节点,根据PRM打分进行加权采样,采样后的节点进行下一步推理
  • 直至Budget=0,也就是成功生成N个推理结果后终止
  • 对最终得到的N个候选答案,可以使用各类广度打分策略来进行聚合,这里论文采用了理论上效果更好的weighted major vote和Best-of-N

在MATH和GSM8k数据集上,论文使用PRM数据集微调了Llemma-34B模型作为Reward模型,分别使用在MeatMath数据集上微调过的Mistral-7B,llema-7B,Llema-34B作为推理模型,以下是REBEASE和其他广度搜索策略,以及不考虑Budget的属性搜索策略的效果对比

效果上,相同的推理错误率,使用REBEASE搜索策略,相比随机采样和MCTS需要更低的推理成本,并且随错误率降低,推理量级的上升幅度相比其他策略更低。

同时在同一个模型系列中,相同错误率下,使用推理广度或者树形搜索策略,7B模型相比34B所需的推理成本更低。 这里的观点就很有意思了也就是小模型通过更优的推理策略,是有可能用更低的成本达到大模型的效果的,这个观点在后面谷歌的论文中得到了更全面细致的论证。

全面分析:Test Time Scaling

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters RISE:Recursive introspection: Teaching foundation models how to self-improve MATH-SHEPHERD: VERIFY AND REINFORCE LLMS STEP-BY-STEP WITHOUT HUMAN ANNOTATIONS

如果说前两篇论文各自选了推理策略中的一个方向去做优化和分析,那谷歌的这篇论文就是一网打尽式的把各个推理策略和优化方向都全面考虑在内,给出了一个综合的推理策略选择最优方案。论文的目标就是回答在给定prompt和推理budget的前提下如何选择最优的推理策略, 以及该推理策略对推理效果的提升,是否比直接换个大模型要来的更显著?

论文提出优化推理效果,本质上是调整模型推理的token分布,一种是让模型自我调整,例如通过RL对齐让模型生成中间推理过程(STaR),也可以让模型通过自我优化,对推理结果给出优化建议并针对建议进行优化,论文称之为“Proposal”。另一种就是面向一个打分模型进行搜索优化,论文称之为“Verifier”。我理解其实前者的本质就是深度策略(例如self-refine,self-critique,self-reflection),而后者的本质广度策略(例如best-of-n)。

论文提出以上不同的策略适配不同难度的问题,那第一步就是对问题的难度进行分类,这里论文使用MATH数据集,使用基座模型对每个样本生成2048个推理结果,然后使用打分模型评估这些推理结果是否正确,对正确率进行分桶,总共分成5个桶,代表不同的难度分层。有了难度分类,下面我们分别看下优化Verifier和Proposal的效果

Verifier

Verifier依赖打分模型,所以首先是PRM模型的训练,不熟悉PRM的可以先读这篇解密prompt系列34. RLHF之训练另辟蹊径:循序渐进 & 青出于蓝。这里论文参考了MATH-SHEPHERD的全自动标注方案,通过对同一个问题生成多个推理过程,过程中的每个节点,都使用该节点通向正确答案的概率作为该节点的标签来训练PRM模型。

至于如何使用PRM来优化推理,其实包含两个步骤:多个推理链路的搜索生成,以及对多个链路打分投票得到最终答案

先说推理链路的搜索策略,这里论文尝试了三种方案包含简单广度搜索和树形搜索,分别是

  • Best-of-N:随机采样生成N个推理链路
  • Beam Search:生成N个初始节点,每一步都基于PRM选择Top M个节点继续推理,最终保留N个得分最高的推理链路
  • Lookahead Search:同样是Beam Search只不过每一步保留哪些节点,不由当前节点的打分决定,而是再向前推理K步,由K步之后的节点打分决定,当K=0其实就是Beam Search。虽然看起来是最科学的搜索策略,但是也带来了额外的计算成本。

再来说下打分投票策略,以上不同的搜索策略都会得到N个推理链路,论文对每个推理链路进行整体打分,这里没有使用多个步骤的PRM打分聚合而是直接使用了最后一个节点的PRM打分作为整个推理链路的得分。得到打分后,使用weighted best-of-n来得到最终答案,也就是对每个答案计算所有得到该答案的推理链路的总分,得分最高的答案作为最终答案。

不同策略的效果对比能得到以下几个结论

  • 当推理budget有限时,Beam Search的效果最好,当N逐渐变大后Best-of-N逐渐展现出了暴力就是奇迹的优越性能
  • 相同Budget下,Lookahead的效果是最差的,论文怀疑是过度的搜索层的优化会导致一些例如推理链路过短的过度优化问题(先前推N步后early stop了)。但我有点怀疑是因为向前推的部分论文使用的是temperature=0进行外推,影响了推理质量
  • 在不同难度的问题上,简单问题(level 1-2)随着budget上升,Best-of-N的效果会逐渐变得更好,提示广度策略对于简单问题的有效性。而较难的问题(level3-4),beam-search持续有更优的效果,对于最难的问题(level5)啥也不好使

一言以蔽之问题越简单搜索策略越简单,推理资源越多搜索策略越简单

Proposal

Proposal依赖模型自我反思优化的能力,所以首先是训练Revision模型,论文参考了RISE的方案,只不过采用了离线构建多轮回答的方案。论文对每个样本独立采样64次,从中把正确的回答和0-4个错误的回答(随机采样)进行配对,把错误回答作为上文,正确回答作为最终的回答构建多轮对话作为训练数据。

配对过程选用了编辑距离来挑选和正确回答最相近的错误回答,帮助模型更容易找到正确和错误之间的关联性,真的是去学习从错误中定位原因进行优化,而非跳过错误的上文,直接去尝试生成正确答案。然后使用以上样本对模型进行微调。

但以上的样本存在bias,也就是上文只有错误答案,最终的推理答案都和上文不同,而真正在推理过程中使用多个结果作为上文,其中是可能存在正确答案的,也就是有可能模型会把正确答案给改成错误答案。因此论文选择把revision和verifier进行结合,也就是使用打分模型从revision序列生成的多个推理结果中选择最正确的。

效果上论文发现,在不同的推理budget下,同样是N个推理链路,revision深度搜索的效果都要优于parallel广度搜索。但论文认为本质上两种策略应该在不同场景中各有优劣,广度策略更善于全局搜索,而深度策略依赖最开始已经选择了正确的方向然后进行持续的局部优化。因此论文尝试把广度策略和深度策略进行合并,并寻找最优的合并比例,给定budget多少用来做深度搜索,多少做广度搜索。

论文认为在不同的budget和问题难度下应该存在广度和深度策略的最优ratio,老实说下图的趋势并不是非常的明显,能推理出的结论有

  • Budget有限,revision更多的效果更好,Budget很大时存在最优ratio。但我的感觉是这并非balance ratio,而是广度策略对budget的依赖更明显存在突变点,就是当budget>threshold会在部分问题上效果有更显著的提升,而revision随budget的效果提升更平滑
  • 简单问题,revision更多效果更好,复杂问题存在最优ratio,在解决复杂问题时深度和广度策略可以互相补充

最后还有一个问题没有回答就是推理效果提升和预训练之间的balance,直接上图,具体数据不是很重要因为和模型以及数据集都相关,所以只说下insight

  • 简单问题:更多推理资源能覆盖更多预训练能解决的问题,所以小模型更多推理资源更合适
  • 复杂问题:对于模型能力以外的复杂问题,预训练是提升模型能力的核心

想看更全的大模型相关论文梳理·微调及预训练数据和框架·AIGC应用,移步Github >> DecryPrompt

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​解密prompt系列49. 回顾R1之前的思维链发展
在所有人都在谈论R1的今天,作为算法也是有些千头万绪无从抓起。所以这一章先复盘,我先按照自己的思路来梳理下R1之前整个模型思维链的发展过程。下一章再展望主要去看RL在Agent上的一些尝试,毕竟Agent规划和长思考的本质是非常像的,在优化中面临的问题也是类似的。
风雨中的小七
2025/02/19
3712
​解密prompt系列49. 回顾R1之前的思维链发展
​解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling
春节前DeepSeek R1和Kimi1.5炸翻天了,之前大家推测的O1的实现路径,多数都集中在MCTS推理优化,以及STaR等样本自优化方案等等,结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling,也可以在RL。也算是Post Train阶段新的Scaling方向,几个核心Take Away包括
风雨中的小七
2025/02/07
9850
​解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling
​解密prompt系列34. RLHF之训练另辟蹊径:循序渐进 & 青出于蓝
前几章我们讨论了RLHF的样本构建优化和训练策略优化,这一章我们讨论两种不同的RL训练方案,分别是基于过程训练,和使用弱Teacher来监督强Student
风雨中的小七
2024/07/18
4730
​解密prompt系列34. RLHF之训练另辟蹊径:循序渐进 & 青出于蓝
多模态慢思考:分解原子步骤以解决复杂数学推理
本文作者来自中山大学、香港科技大学、上海交通大学和华为诺亚方舟实验室等机构。第一作者项鲲为中山大学博士生,刘智立为香港科技大学博士生,姜子昊为上海交通大学硕士研究生。
机器之心
2025/02/14
1190
多模态慢思考:分解原子步骤以解决复杂数学推理
解密prompt系列42. LLM通往动态复杂思维链之路
最近大家都在探讨和尝试复现OpenAI O1的思考效果,解码出的关键技术方向,包括之前已经探讨过的Inference Time Scaling在推理过程中进行路径决策和选择。但想要更优的Inference Time Scaling曲线,前提是模型本身是一个很强的Generator,已经拥有足够的生成合理推理过程的能力,同时还拥有很强的Verifier模型来对推理节点进行打分决策,并且二者可以在少人类监督的条件下不断迭代优化。
风雨中的小七
2024/11/07
4990
解密prompt系列42. LLM通往动态复杂思维链之路
推理大模型的后训练增强技术--LLM 推理模型的现状
提升大型语言模型(LLM)的推理能力无疑是 2025 年最火热的话题之一,而且理由很充分。更强的推理能力意味着 LLM 可以处理更复杂的问题,让它在各种任务上表现得更出色,更贴近用户的实际需求。
致Great
2025/03/13
1260
推理大模型的后训练增强技术--LLM 推理模型的现状
选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化
今天是个好日子,DeepSeek 与 Kimi 都更新了最新版的推理模型,吸引了广泛关注。与此同时,谷歌 DeepMind、加州大学圣地亚哥分校、阿尔伯塔大学的一篇新的研究论文也吸引了不少眼球,并直接冲上了 Hugging Face 每日论文榜第一(1 月 20 日)。
机器之心
2025/02/03
640
选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
随着OpenAI o1证明了测试时扩展(TTS)可以通过在推理时分配额外算力,大幅增强LLM的推理能力。测试时计算,也成为了当前提升大模型性能的最新范式。
新智元
2025/02/15
900
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
解密prompt系列43. LLM Self Critics
前一章我们介绍了基于模型自我合成数据迭代,来提升LLM生成更合理的自我推理思考链路。但在模型持续提升的道路上,只提升Generator能力是不够的,需要同步提升Supervisor、Verifier的能力,才能提供有效的监督优化信号。
风雨中的小七
2024/11/21
4320
解密prompt系列43. LLM Self Critics
解密Prompt系列14. LLM Agent之搜索应用设计:WebGPT & WebGLM & WebCPM
前两章,我们分别介绍了基于微调和prompt的工具调用方案,核心都是如何让大模型和工具进行交互,包括生成工具调用语句和处理工具调用请求。不过在实际应用中,想要设计一个可以落地的LLM Agent,需要更全面整体的系统设计。本章我们以搜索工具为例,介绍如何更好和搜索引擎进行交互的LLM Agent。
风雨中的小七
2023/08/31
3.3K0
解密Prompt系列14. LLM Agent之搜索应用设计:WebGPT & WebGLM & WebCPM
理解什么是推理模型,看懂这篇就够了
DeepSeek-R1、OpenAI o3-mini 和 Google Gemini 2.0 Flash Thinking 是通过“推理”框架将 LLMs 扩展到新高度的典范。
AIGC新知
2025/03/21
1420
理解什么是推理模型,看懂这篇就够了
解密prompt系列50. RL用于优化Agent行为路径的一些思路
OpenAI新推出的Deep Research功能,属实有些惊艳,也验证了去年的一些观点,之后的大模型工作流会呈现一些截然不同的形态,有敏捷型的例如语音端到端的及时对话,也会有异步长流程的复杂任务,去做例如课题研究,信息收集,实验设计,假设验证等等。
风雨中的小七
2025/03/06
2470
解密prompt系列50. RL用于优化Agent行为路径的一些思路
解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析
前三章都围绕指令微调,这一章来唠唠RLHF。何为优秀的人工智能?抽象说是可以帮助人类解决问题的AI, 也可以简化成3H原则:Helpful + Honesty + Harmless。面向以上1个或多个原则,RLHF只是其中一种对齐方案,把模型输出和人类偏好进行对齐。大体分成3个步骤
风雨中的小七
2023/05/21
2.5K0
解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析
人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
机器之心
2025/02/10
880
人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率
解密Prompt系列9. 模型复杂推理-思维链基础和进阶玩法
这一篇真的是解密prompt!我们会讨论下思维链(chain-of-Thought)提示词究竟要如何写,如何写的更高级。COT其实是Self-ASK,ReACT等利用大模型进行工具调用方案的底层逻辑,因此在Agent调用章节之前我们会有两章来讲思维链
风雨中的小七
2023/06/14
6.8K5
解密Prompt系列9. 模型复杂推理-思维链基础和进阶玩法
​解密Prompt系列22. LLM Agent之RAG的反思:放弃了压缩还是智能么?
已经唠了三章的RAG,是时候回头反思一下,当前的RAG是解决幻觉的终点么?我给不出直接的答案,不过感觉当前把RAG当作传统搜索框架在大模型时代下的改良,这个思路的天花板高度有限~
风雨中的小七
2023/12/28
2.2K0
​解密Prompt系列22. LLM Agent之RAG的反思:放弃了压缩还是智能么?
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
谷歌祭出最强下一代新模型Gemini 2.0 Flash,并带着多个智能体一同亮相;OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。
新智元
2025/02/15
990
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
不仅如此,SLM在美国数学奥林匹克(AIME)上,拿下了53.3%的亮眼成绩,直逼全美20%顶尖高中生!
新智元
2025/02/15
960
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
解密Prompt系列2. 冻结Prompt微调LM: T5 & PET & LM-BFF
这一章我们介绍固定prompt微调LM的相关模型,他们的特点都是针对不同的下游任务设计不同的prompt模板,在微调过程中固定模板对预训练模型进行微调。以下按时间顺序介绍,支持任意NLP任务的T5,针对文本分类的两篇PET和LM-BFF。
风雨中的小七
2023/02/24
2.4K0
解密Prompt系列2. 冻结Prompt微调LM: T5 & PET & LM-BFF
多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%
近段时间,DeepSeek R1 推理模型引爆了国内外社交媒体,让人们见识到了大语言模型类人的深度思考能力。
机器之心
2025/03/04
770
多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%
推荐阅读
​解密prompt系列49. 回顾R1之前的思维链发展
3712
​解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling
9850
​解密prompt系列34. RLHF之训练另辟蹊径:循序渐进 & 青出于蓝
4730
多模态慢思考:分解原子步骤以解决复杂数学推理
1190
解密prompt系列42. LLM通往动态复杂思维链之路
4990
推理大模型的后训练增强技术--LLM 推理模型的现状
1260
选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化
640
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
900
解密prompt系列43. LLM Self Critics
4320
解密Prompt系列14. LLM Agent之搜索应用设计:WebGPT & WebGLM & WebCPM
3.3K0
理解什么是推理模型,看懂这篇就够了
1420
解密prompt系列50. RL用于优化Agent行为路径的一些思路
2470
解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析
2.5K0
人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率
880
解密Prompt系列9. 模型复杂推理-思维链基础和进阶玩法
6.8K5
​解密Prompt系列22. LLM Agent之RAG的反思:放弃了压缩还是智能么?
2.2K0
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
990
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
960
解密Prompt系列2. 冻结Prompt微调LM: T5 & PET & LM-BFF
2.4K0
多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%
770
相关推荐
​解密prompt系列49. 回顾R1之前的思维链发展
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文