前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >UC伯克利 | 提出索增强微调(RAFT),只需少量微调,就能大幅提升模型领域QA能力

UC伯克利 | 提出索增强微调(RAFT),只需少量微调,就能大幅提升模型领域QA能力

作者头像
ShuYini
发布2024-03-25 14:03:15
2690
发布2024-03-25 14:03:15
举报

引言

在整合大语言模型到应用程序时,需要添加新信息,比如专业知识或私有数据。为了有效地让模型掌握这些新知识,本文作者提出了一种名为「检索增强微调(RAFT)」 的方法。这是一种简单而强大的微调方法,只需简单的微调,就可大幅提升模型在“开卷”特定领域下的问答性能。

https://arxiv.org/pdf/2403.10131.pdf

假如让大模型准备考试?

想象一下,我们要让大模型(LLM)准备考试,就像学生备考一样。根据不同客服,他会面临闭卷考试、开卷考试这类情况。而在开卷考试中RAFT就像是一套特别的复习方法,用来让这个模型更好地适应特定领域的检索增强(RAG)任务。如下图所示:

「如果是闭卷考试」,即LLM在没有额外参考资料的情况下回答问题,那么LLM就像一个普通的聊天机器人,只能依靠它在预训练和监督微调阶段学到的知识来回答问题。

「如果是开卷考试」,就好比LLM可以查阅外部信息源(比如网站或者书籍章节)来回答问题。在这种情况下,LLM通常会和一个检索器搭配使用,这个检索器会找到一些文档或者文档的特定部分,然后附加到用户的提问上。LLM就是通过这些检索到的文档来获取新知识的。所以,我们说LLM在这种设置下的表现,很大程度上取决于检索器的质量,以及它能否准确找到最相关的信息。

「RAFT方法关注的是更加细分的特定领域,并在此领域上进行开卷考试」。LLM可以使用所有在这个特定领域内经过微调的信息来回应用户的提问。这些特定领域的示例包括企业文件、最新新闻、属于某个组织的代码库等。在所有这些场景中,LLM都会被用来回答问题,而这些答案都可以在一系列文档中找到。尽管检索技术可能会影响准确性,但是本身对该机制影响不大。本篇文章主要研究的就是这样的特定领域开卷设置,以及如何让预训练的LLM适应这个特定领域,包括如何让它对检索到的文档数量的变化和干扰项更加稳健。

RAFT方法介绍

RAFT(检索增强微调)是一种新方法,用于准备数据微调,以便对模型定制化以适应特定领域的”开卷考试“,也就是领域内的RAG。在RAFT中,我们准备的训练数据包括一个问题(Q)、一组文档(

D_k

)以及一个从某个文档(

D^*

)生成的思维连答案(

A^*

)。我们区分了两种类型的文档:能够推导出问题答案的“神谕文档(oracle documents)”(

D*

)和不包含答案相关信息的“干扰文档”(

D_i

)。

这里的神谕文档并不需要是单一的文档,它可以是多个文档,就像在HotpotQA中那样。然后,对于数据集中的一部分问题(

q_i

),我们保留了神谕文档(

d_i^*

)以及干扰文档(

d_{k-1}

)。对于另一部分问题(

q_i

),我们不包括任何神谕文档,只包括干扰文档(

d_{k}

)。接着,我们使用标准的监督训练(SFT)技术对语言模型进行微调,训练其根据提供的文档和问题生成答案。如下图所示:

本文提出的RAG方法训练模型在其训练的文档集上表现得更好。通过移除训练数据中的除神谕文档,迫使模型记住领域知识。RAFT的训练数据如下所示,下面图中可以看到一个示例训练数据:

除此之外,本文还提供了数据集训练数据的一个示例。这涉及问题、上下文、说明和最终 CoT 答案。在答案中,作者使用 ##begin_quote## 和 ##end_quote## 来表示直接从上下文复制粘贴的引用的开头和结尾。这种方法能够有效的防止模型产生幻觉。数据集示例如下图所示:

代码语言:javascript
复制
Question: The Oberoi family is part of a hotel company that has a head office in what city?

context: [The Oberoi family is an Indian family that is famous for its involvement in hotels, namely through The Oberoi Group]...[It is located in city center of Jakarta, near Mega Kuningan, adjacent to the sister JW Marriott Hotel. It is operated by The Ritz-Carlton Hotel Company. The complex has two towers that comprises a hotel and the Airlangga Apartment respectively]...[The Oberoi Group is a hotel company with its head office in Delhi.]

Instruction: Given the question, context and answer above, provide a logical reasoning for that answer. Please use the format of: ##Reason: {reason} ##Answer: {answer}.

CoT Answer: ##Reason: The document ##begin_quote## The Oberoi family is an Indian family that is famous for its involvement in hotels, namely through The Oberoi Group. ##end_quote## establishes that the Oberoi family is involved in the Oberoi group, and the document ##begin_quote## The Oberoi Group is a hotel company with its head office in Delhi. ##end_quote## establishes the head office of The Oberoi Group. Therefore, the Oberoi family is part of a hotel company whose head office is in Delhi. ##Answer: Delhi

实验结果

实验中,作者挑选了几个不同领域的数据集来测试模型,有的来自维基百科的常识性问题,比如电影、体育;还有的出自API文档,这些主要是看模型能不能根据文档正确调用API;还有一个是PubMed QA,专门用来医学问答。

如下图所示,RAFT 提高了所有专业领域的 RAG 性能,在下面测试集上可以看到特定领域的微调显着提高了基础模型的性能,但 RAFT 始终优于现有的特定领域微调方法。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 假如让大模型准备考试?
  • RAFT方法介绍
  • 实验结果
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档