前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对于语言模型的推理问题,一步步来会更好

对于语言模型的推理问题,一步步来会更好

作者头像
DrugAI
发布2023-09-19 14:19:07
2310
发布2023-09-19 14:19:07
举报
文章被收录于专栏:DrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Openai研究团队的一篇提高语言模型推理能力的论文。近年来,大型语言模型在进行复杂多步推理方面的能力有了显著提升。然而,即使是最先进的模型仍然经常产生逻辑错误。为了训练更可靠的模型,作者可以采用结果监督或过程监督两种方法。结果监督为最终结果提供反馈,而过程监督则为每个中间推理步骤提供反馈。考虑到训练可靠模型的重要性以及人工反馈的高成本,仔细比较这两种方法非常重要。最近的研究已经开始比较这两种方法,但仍然存在许多问题。Openai进行了关于这个问题的研究,发现对于训练模型解决具有挑战性的MATH数据集中的问题,过程监督明显优于结果监督。

大型语言模型能够通过以逐步推理的方式生成解决方案,解决需要复杂多步推理的任务。然而,即使是最先进的模型也容易产生虚假信息。这些幻觉问题在需要多步推理的领域尤为棘手,因为一个逻辑错误足以使后续的解决方案失效。检测和减轻幻觉对于提高推理能力至关重要。一种有效的方法是训练奖励模型来区分可取和不可取的输出。然后,奖励模型可以用于强化学习流程或通过拒绝抽样进行搜索。尽管这些技术很有用,但由于奖励模型本身的可靠性,最终系统的可靠性也与之相关。因此,研究如何最有效地训练可靠的奖励模型非常重要。

在相关工作中,Uesato等人描述了训练奖励模型的两种不同方法:结果监督和过程监督。结果监督的奖励模型(ORM)仅使用模型推理链的最终结果进行训练,而过程监督的奖励模型(PRM)在推理链的每个步骤中都会接收反馈。选择过程监督有一些强有力的理由。它提供了更精确的反馈,因为它指出了发生错误的确切位置。它还具有与AI对齐相关的几个优点:人类更容易理解它,而且它更直接地奖励模型按照人类认可的推理链进行推理。在逻辑推理领域,使用结果监督训练的模型经常使用不正确的推理方法得出正确的最终答案。过程监督已被证明可以减轻这种不对齐的行为。

尽管具有这些优点,Uesato等人发现,在小学数学难度下,结果监督和过程监督导致了类似的最终性能。作者通过本文对结果监督和过程监督的详细比较,有三个主要区别:我们使用了更强大的基础模型,使用了更多的人类反馈,并在更具挑战性的MATH数据集上进行了训练和测试。

研究范围

在每个模型规模下,作者使用单一的固定模型来生成所有解答。作者不试图使用强化学习(RL)来改进生成器模型。当讨论结果监督和过程监督时,特指对奖励模型的监督。作者不讨论生成器模型从奖励模型中接收的任何监督(如果使用RL进行训练)。虽然使用RL对生成器模型进行微调是一个自然的下一步操作,但文章有意专注于如何训练最可靠的奖励模型。

作者专注于评估奖励模型的可靠性,通过对从生成器模型均匀采样的N个解答进行最佳选择搜索来评估奖励模型。对于每个测试问题,作者选择奖励模型评分最高的解答,根据最终答案自动评分,并报告正确解答的比例。一个更可靠的奖励模型会更经常选择正确的解答。

所有的大规模模型都是从基础的GPT-4模型进行微调。该模型仅经过预训练来预测下一个标记;它没有经过任何强化学习来自于人类反馈(RLHF)的预训练。小规模的基础模型在设计上类似于GPT-4,但它们的预训练计算量约为原始模型的1/200。作为额外的预训练步骤,作者将所有模型在大约15亿个与数学相关的标记的数据集上进行微调,称之为MathMix。

结果监督奖励模型(ORMs)

捉着按照Cobbe等人的类似方法训练ORM模型。作者从生成器中均匀抽样每个问题的固定数量的解决方案,并训练ORM来预测每个解决方案的正确与否。在实践中,通常通过自动检查最终答案来确定正确性,但原则上这些标签可以由人工提供。在测试时,使用ORM在最后一个标记处的预测作为解决方案的整体得分。需要注意的是,用于确定ORM目标的自动分级并不完全可靠:具有错误推理但达到了正确答案的虚假阳性解决方案可能会被错误地评分。

过程监督奖励模型(PRMs)

图 1

作者训练PRMs来预测每个步骤中最后一个标记后的正确性。这个预测采用单个标记的形式,在训练过程中最大化这些目标标记的对数似然。因此,PRM可以在标准语言模型流程中进行训练。在测试时,确定每个步骤级别的预测只需要对整个解决方案进行一次PRM前向传递即可。作者在图1中可视化了两个不同答题方案的PRM分数。为了比较多个解决方案,需要为每个解决方案计算一个单一的分数。作者定义解决方案的PRM分数为在PRM下每个步骤都正确的概率的乘积。

在提供过程监督时,作者有意选择仅监督到第一个错误的步骤。这使得结果监督和过程监督之间的比较更加直接。对于正确的解决方案,两种方法提供相同的信息,即每个步骤都是正确的。对于错误的解决方案,两种方法都揭示了至少存在一个错误,并且过程监督还额外揭示了该错误的准确位置。如果在第一个错误之后提供额外的过程监督,那么过程监督将具有更大的信息优势。这个决策还使人类的标注成本保持相似:在没有依赖于易于检查的最终答案的情况下,确定解决方案的正确性等同于确定其第一个错误。虽然大多数MATH问题确实有易于检查的最终答案,但作者预计在更复杂的领域中这种情况可能不再成立。

大规模监督实验

图 2

作者使用PRM800K中的步骤级标签来训练大规模的PRM。为了确保大规模ORM基线尽可能强大,作者从生成器中对每个问题进行了100个均匀采样进行训练。这意味着ORM训练集与PRM800K没有重叠,并且ORM训练集的规模比PRM800K大一个数量级。尽管这两个训练集不能直接进行比较,但每个训练集代表了在每种监督形式下推进技术发展的最佳尝试。可以注意到,仅使用PRM800K的解决方案来训练ORM将会有问题,因为主动学习策略严重偏向错误答案的数据集。作者尝试了在PRM800K解决方案的超集上训练ORM,通过混合均匀采样的解决方案,但发现这并没有提高ORM的性能。

图2展示了每个奖励模型在不同N值下的最佳选择性能变化情况。由于多数投票被认为是一个强大的基线方法,文章也将其作为比较的一个点。虽然ORM的性能略好于多数投票基线,但PRM明显优于两者。不仅PRM在所有N值下的性能更高,而且随着N的增加,性能差距也在扩大。这表明在搜索大量模型生成的解决方案时,PRM比ORM和多数投票更有效。作者尝试使用加权投票,将PRM和多数投票的优势结合起来,但并没有明显提高性能。

小规模监督实验

图 3

可以发现在大规模情况下,PRM优于ORM,但仅凭这一结果无法得出完整的结论。为了更好地比较结果监督和过程监督,需要分离两个混淆因素。首先,ORM和PRM的训练集并不直接可比:PRM的训练集是通过主动学习构建的,偏向错误答案的解决方案,并且规模较小。其次,最终答案评分将会给达到正确最终答案但推理错误的虚假解决方案提供正面标签。这可能会损害ORM的性能,而我们可能或可能不希望将其归因于结果监督更普遍的效果。由于收集人类反馈的成本很高,无法轻易地通过人类标注者对这些因素进行剔除实验。相反,可以通过使用大规模PRM来监督较小的模型进行相关的剔除实验。这个设置能够以较低的成本模拟大量的数据收集。在本节的其余部分,作者将大规模PRM称为PRMlarge。

作者首先从小规模生成器中对每个问题抽取1到200个解决方案。对于每个数据集,作者提供三种监督形式:来自PRMlarge的过程监督、来自PRMlarge的结果监督,以及来自最终答案检查的结果监督。这三种系列的奖励模型之间的唯一区别是监督的形式,其余部分都在相同的数据集上进行训练。在图3a中,通过在500个解决方案中选择最好的来评估每个奖励模型。可以看到,过程监督在所有数据收集规模上明显优于两种形式的结果监督。在图3b中,通过不同的N值评估每个系列中最佳奖励模型的N最佳表现。可以看到,使用PRMlarge进行结果监督明显比最终答案检查更有效。这可以解释为PRMlarge提供了更好的监督,用于那些使用错误推理达到正确最终答案的解决方案。

目前还不清楚PRMlarge或最终答案检查的监督方式哪种更适合作为结果监督的基准。尽管最终答案监督更明确地基于结果,但它的主要弱点——存在错误阳性——在MATH数据集中可能被过度强调。PRMlarge提供的结果监督更好地代表了在更不容易出现错误阳性的领域中的结果监督。作者认为PRMlarge提供的结果监督更具相关性,但作者鼓励读者自行得出结论。

最后,作者研究了主动学习的影响。在每个问题上使用单个样本训练了一个小规模的奖励模型PRMselector,并使用该模型对每个问题进行了1000个样本的评分。为了训练更大规模的奖励模型,作者选择每个问题的N个样本。作者使用PRMlarge对选定的样本进行评分,并在这些评分上进行训练。这个过程确保了所有样本在PRMselector下相对有说服力,大部分已知包含至少一个错误,并且整体数据集没有过多偏向错误答案的解决方案。该数据标注方案的性能如图4a所示。通过比较具有和不具有主动学习的最佳拟合线的斜率,作者估计这种形式的主动学习的数据效率大约是均匀数据标注的2.6倍。在最大的主动学习数据集上训练的模型略微低于预期的趋势线。在迭代之间,作者使用当前所有标记数据对PRMselector进行重新训练。不幸的是,作者观察到这个过程中的不稳定性,无法诊断出原因。由此产生的奖励模型的表现不如上述模型。作者预计在主动学习中进行某种形式的迭代重新训练将是有益的,但目前没有具体的证据来支持这一观点。作者认为这是未来研究的一个有吸引力的方向。

结论

过程监督的明显优势在于它提供比结果监督更精确的反馈。使用结果监督训练的奖励模型面临一个困难的信用分配任务,即它必须确定错误解决方案出了哪里。对于困难问题来说,大多数模型生成的解决方案都存在错误,因此结果监督的负标签的价值很低。相比之下,过程监督提供了更丰富的信号:它不仅指定了前几个步骤中有多少是正确的,还确定了错误步骤的具体位置。过程监督使得信用分配更容易,作者认为这解释了它的出色性能。

过程监督相比结果监督在对齐方面具有几个优势。过程监督更有可能产生可解释的推理,因为它鼓励模型遵循人类认可的过程。过程监督本质上更安全:它直接奖励对齐的思维链,而不是依赖结果作为对齐行为的替代指标。相比之下,结果监督更难以审查,并且所传达的偏好更不精确。在最坏的情况下,将结果用作不完美的替代品可能导致模型在学习利用奖励信号后失去对齐。

参考资料

https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-27 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档