Meta | 提出分支、求解、合并(BSM)方案，可让Llama-chat-70B 媲美 GPT-4！

ShuYini

发布于 2023-10-25 10:39:19

3060

发布于 2023-10-25 10:39:19

引言

当前，大型语言模型(LLMs)经常被应用于各种语言生成和评估任务，对于具体任务往往需要考虑各种约束和评估标准。但是，由于模型无法规划分解问题，缺乏连贯性，它们的性能可能会达不到要求。

为此，本文作者提出了Branch-Solve-Merge (BSM)，它分支、求解和合并模块组成，利用这三个模块将任务分解为多个并行的子任务，独立地解决它们，并将解决方案融合到子任务中。实验结果显示，该方法可以让Llama 70B chat达到GPT-4的效果，让GPT-4的性能进一步升级3%。

Paper：https://arxiv.org/pdf/2310.15123.pdf

背景介绍

大型语言模型（LLM）广泛用于各种文本生成任务。利用大型语言模型的能力来评估其它大模模型的性能已变的非常常见。同时，现在研究人员也正在不断的努力使其应用到比较复杂的工作任务中，评估是否能够满足一组或者多组约束条件，换句话来说，就是根据某些不同的评估标准来评估生成文本的质量。例如：大模型输出结果评估、大模型生成控制评估。

「大模型输出结果评估」大型语言模型现在经常用于对模型响应结果进行自动评估。全面评估LLM具有一定的挑战性，因为由于LLM对于任意问题都能给出答案，在某些应用场景下往往会存在偏见和可靠性；并且如果完全依赖手工设计的评估方法，会影响LLM的泛化能力从而引入人为偏见。

「大模型生成控制评估」控制大型语言模型LLMs的生成，往往会与大模型的本质存在一定的矛盾。例如，根据几个约束概念，让大模型生成一个完整的故事。模型通常要么违反约束，要么为了满足这些约束而生成不连贯的文本。

总之在此过程中，模型性能无法满足评估要求的主要原因是模型缺乏自我一致性。最近的研究试图通过开发引发推理、规划和细化的迭代方法来减轻这些限制，但到目前为止，它们仍然被认为是一个开放问题。

BSM方法

基于以上背景，本文作者提出了BRANCH-SOLVE-MERGE (BSM)，它是一种用于解决此类多方面自然语言任务的分解方法。该方法是大型语言模型程序的一个实例，主要由三个模块组成：分支(Branch Module)、求解(Solve Module)和合并(Merge Module)，其中：

「分支模块」主要是将一个大的任务分解成多个子任务，以便更好地解决问题。具体来说，分支模块会生成多个子任务，每个子任务都由一个唯一的分支表示。这样，问题就可以被分解成多个独立的部分，可以并行地解决，然后将部分解决方案组合起来。

「求解模型」主要用于解决由Branch Module生成的每个子问题。分支模块接受一个子问题作为输入，并生成一个解决方案。求解模型是参数化的，具有唯一的Prompt，可以帮助LLM生成与输入一致的解决方案。

「合并模块」主要用于将求解模型生成的解决方案组合成原始任务的最终解决方案。合并模块接受求解模型生成的解决方案集合作为输入，并生成原始任务的最终解决方案。

对于一个具体任务来说，「BSM的主要工作思路」如下：

「首先」，“分支”模块将任务分解为多个并行子任务来生成解决方案计划，每个子任务由一个唯一的分支表示，代表解决整个问题所需的不同组件；

「然后」，“求解”模块解决每个独立的子问题；

「最后」，“合并”模块融合这些子问题的解决方案以生成整体解决方案。

对于大模型输出结果评估任务，如下图主要展示了LLaMA-2-70B-chat 进行 BRANCH-SOLVE-MERGE的具体过程。

具体来说，是给定一个问题和两个 LLM 答案 A 和 B，BSM 会生成一个偏好判断。分支模块根据问题生成特定于问题的评估计划，在本例中，该计划由不同的标准组成，例如与夏威夷旅行主题的“相关性”、“清晰度”等。“求解”模块评估每个问题的响应对独立的标准（分支），“合并”模块结合各个判断来生成最终判决，在这种情况下，B 是更好的响应。

对于大模型生成控制评估，如下图所示，主要展示了使用BRANCH-SOLVE-MERGE来控制LLaMA-2-70B-chat进行故事生成过程。

如上图所示，给定一组随机概念，“分支”模块首先将它们分为两组并生成一个故事主题。“求解”模块以概念和主题为条件，为每个分支生成一个中间故事， “合并”模块合并中间故事以生成最终故事，确保所有概念仍然存在。

实验结果

将BSM方法应用于 LLM 输出评估和约束文本生成的任务，并使用多个 LLM 评估其有效性，包括 Vicuna、LLaMA-2-chat 和 GPT-4。具体结果如下图所示：

如下图所示，使用 LLaMA-2-70B-chat 的 BSM 将 LLM 与人类的一致性提高了高达 26%，甚至在许多方面与 GPT-4 匹配或优于 GPT-4 域。与 GPT-4 相比，BSM+GPT-4的一致性进一步提高了3%。

如下图所示，相比 LLaMA 基线，使用BSM方法得到了显着改进，并且在四个领域中的三个领域匹配或接近 GPT-4 协议，同时有时在减少偏差方面优于 GPT-4。

在约束故事生成任务上，BSM 提高了故事的连贯性，同时还将约束满意度提高了 12%。