社区首页 >专栏 >告别“幻觉生成”！清华团队提出DRAGIN框架：让大模型主动动态检索关键信息

告别“幻觉生成”！清华团队提出DRAGIN框架：让大模型主动动态检索关键信息

AI研思录

发布于 2025-02-27 06:41:28

11200

代码可运行

文章被收录于专栏：AI研思录AI研思录

运行总次数：0

代码可运行

现有RAG检索的不足

传统的 RAG 方法通常依赖于单轮检索，即使用 LLM 的初始输入从外部语料库中检索相关信息。现有方法通常依赖于静态规则来决定何时检索，忽略了对检索必要性及潜在风险的评估。

一方面，根据输入查询和检索模型的质量，不必要的检索增强可能会为 LLMs 引入无关或噪声数据，从而影响输出质量。另一方面，进行检索增强不可避免地会增加 LLM 推理的时间和计算成本，如果 LLMs 能够自行生成正确输出，这种成本是不值得的。此外，现有研究在决定检索什么时，通常局限于 LLM 最近生成的句子或最后几个词元。这种方法可能无法捕捉模型的实时信息需求，因为 LLM 的信息需求实际上可能与贯穿整个上下文的术语相关。因此，以这种方式检索文档在许多情况下是次优的。

清华大学&北京理工大学联合推出最新 DRAGIN，基于大型语言模型信息需求的动态检索增强生成方法。

动态检索增强生成

动态检索增强生成（RAG）范式能够在 LLM 的文本生成过程中主动决定何时以及检索什么内容。这一范式的两个关键要素是：确定激活检索模块的最佳时机（决定何时检索）以及在触发检索后构建适当的查询（决定检索什么）。

DRAGIN，即基于 LLM 信息需求的动态检索增强生成框架。专门设计用于在文本生成过程中，根据 LLM 的信息需求来决定何时检索以及检索什么。

对于检索时机，提出了 实时信息需求检测（RIND），它综合考虑了 LLM 对其生成内容的不确定性、每个词元对后续词元的影响以及每个词元的语义重要性。

对于查询生成，提出了 基于自注意力的查询生成，通过利用 LLM 对整个上下文的自注意力机制，创新性地生成查询。

DRAGIN 是一个轻量级的 RAG 框架，无需进一步训练、微调或提示工程，即可集成到任何基于 Transformer 的 LLMs 中。

实时信息需求检测

检索增强的必要性取决于：

词元重要性：当前词元对后续上下文的影响；
语义价值：词元是否承载关键语义；
上下文依赖性：词元是否关联长期知识需求。

通过多维评估优化检索触发机制，避免了仅依赖置信度的单维度策略的不足。

基于自注意力的查询生成

当RIND模块确定需要触发检索后，动态RAG框架的下一步是生成查询以从外部数据库中检索必要信息，辅助LLM继续生成。现有动态RAG框架的查询生成方法通常局限于LLM最近生成的句子或最后几个词元，这种狭窄的视野无法满足模型可能覆盖整个上下文的实时信息需求。

为突破这一局限，基于自注意力的查询生成（QFS），通过挖掘Transformer架构的自注意力机制，精准捕捉LLM对上下文的全局理解，从而生成更适配当前信息需求的查询。

注意力权重反映上下文关联：生成时，LLM对前文词元的注意力权重揭示了哪些词元对当前决策最关键。
全局语义聚焦：通过分析整个上下文的注意力分布，QFS能识别与当前信息需求最相关的跨句或长程依赖词元，而非仅依赖局部上下文。

核心思想

假设LLM生成的序列为，当RIND模块检测到位置的词元需要外部知识时，QFS基于以下观察生成查询：

提取注意力权重：对触发检索的位置，提取最后一层 Transformer 中对前文所有词元的注意力分数；
排序并筛选关键词元：按注意力分数降序排列，选择注意力权重最高的前个词元；
重构查询语句：根据词元的原始顺序，拼接生成查询语句。

技术优势

长程依赖捕捉：通过全局注意力权重，QFS能识别跨句或长距离相关的关键实体（例如前文提到的“量子比特”与后文“纠错机制”的关联）。示例：生成技术文档时，若当前触发位置涉及“纠错机制”，QFS可能检索前文提到的“量子比特”和后文的“低温稳定性”，形成查询“量子比特纠错机制低温稳定性”。
动态语义适配：相比静态截取最近词元，QFS根据实时注意力分布调整查询焦点，避免噪声干扰。示例：生成历史事件描述时，若触发位置涉及因果关系（如“导致经济衰退”），QFS可能提取前文的“政策调整”和后文的“市场反应”构建查询。
计算高效：注意力权重已在LLM推理过程中计算完成，QFS仅需排序和选择操作，几乎无额外开销。

检索后的继续生成

当RIND模块检测到位置 i 需要外部知识时，QFS模块生成查询并利用现成检索模型（如BM25）从外部知识库中检索相关信息。假设检索到的文档为，动态RAG框架的下一步是将这些知识整合到LLM的生成流程中，

输入提示词模板

以下是外部知识参考： [1] [2] [3] 请基于外部知识回答问题：问题：{原始问题或上下文} 回答：{T'}

示例：若原始生成序列为“量子计算机的______需要极低温环境”，检索到文档包含“量子比特需在稀释制冷机中运行”，则LLM输入变为：

以下是外部知识参考： [1] 量子计算机的核心组件是量子比特，其运行需在接近绝对零度的稀释制冷机中进行。请基于外部知识回答问题：问题：量子计算机的哪些组件需要极低温环境？回答：量子计算机的___需要极低温环境。

LLM基于整合后的输入继续生成后续内容，例如补全为“量子计算机的量子比特和稀释制冷机需要极低温环境”。

总结

主要特点

动态检索：DRAGIN 根据 LLM 的实时信息需求主动决定何时检索以及检索什么，从而显著提高生成文本的相关性和准确性。
轻量级集成：DRAGIN 设计为轻量级框架，可以无缝集成到任何基于 Transformer 的 LLM 中，而无需额外的培训、微调或提示工程。
增强的文本生成：通过更有效地解决检索的时间和内容问题，DRAGIN 提高了 LLM 生成的文本的质量，使其信息量更大、上下文相关性更强、连贯性更强。

实验结果

在2WikiMultihopQA、HotpotQA（多跳推理）、IIRC（阅读理解）、StrategyQA（常识推理）进行了实验。对比实验：

wo-RAG：LLM 直接回答问题，不使用 RAG 增强。
FLARE：动态 RAG 框架，仅当生成置信度低于阈值时触发检索。
IR-CoT：每生成一个句子触发一次检索，使用最新句子作为查询。
RETRO：基于固定词元窗口触发检索，使用最后 N 个词元作为查询。

与传统RAG对比

方法	知识整合方式	局限性
传统 RAG	初始检索后一次性注入所有知识	长文本生成中知识过时或冗余
动态 RAG-DRAGIN	按需多轮注入，每次仅更新局部知识	需管理多轮检索的上下文依赖

代码地址：https://github.com/oneal2000/DRAGIN/tree/main

论文地址：https://arxiv.org/pdf/2403.10081

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-02-26，如有侵权请联系 cloudcommunity@tencent.com 删除

设计

本文分享自 AI研思录微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

鹅厂写码13年，我总结的程序员高效阅读方法论

从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解

1914

微服务架构：由浅入深带你了解底层注册中心

1879

同济大学发布最新检索增强(RAG)的LLM生成技术综述

模型数据性能优化 LLM

摘要主要介绍了大型语言模型（LLMs）在实际应用中面临的挑战，比如幻觉、知识更新缓慢和答案缺乏透明度等问题，并提出了检索增强生成（Retrieval-Augmented Generation，RAG）作为一种解决方案。RAG通过从外部知识库检索相关信息来辅助大型语言模型回答问题，已经被证明能显著提高回答的准确性，减少模型产生的幻觉，尤其是在知识密集型任务中。

唐国梁Tommy

2023/12/21

16.7K0

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

模型数据系统性能论文

本篇论文探讨了RAG系统中的检索对系统性能的影响。与传统的大型语言模型相比，RAG系统通过引入外部数据提高了其生成能力。然而，大多数关于RAG系统的研究主要集中在语言模型的生成方面，而忽略了IR的作用。通过对各种元素进行评估，如文档的相关性、位置和数量等，发现包含不相关文档可以意外地提高准确性超过30％。

致Great

2024/05/28

2220

用检索增强生成让大模型更强大，这里有个手把手的Python实现

python 神经网络工作流模型数据

本文首先将关注 RAG 的概念和理论。然后将展示可以如何使用用于编排（orchestration）的 LangChain、OpenAI 语言模型和 Weaviate 向量数据库来实现一个简单的 RAG。

机器之心

2023/11/22

1.1K0

什么是检索增强生成 (RAG)？简单易懂，一文说清其组成和作用原理

机器学习人工智能

人工智能一直在帮助企业处理各种事务，从简单的客户查询到复杂的问题解决。然而，即使是最先进的人工智能模型有时也会有不足之处，提供的答案也不太准确。

DenserAI_Chris

2024/09/15

1.1K0

深入RAG工作流：检索生成的最佳实践

工作流模型排序性能最佳实践

今天分享的是复旦大学和智能信息处理上海市重点实验室联合发表的一篇文章：实现检索增强生成（RAG）的最佳实践

AI研思录

2025/02/20

2990

大模型+RAG，全面介绍！

性能优化模型数据索引

大型语言模型（LLMs）在处理特定领域或高度专业化的查询时存在局限性，如生成不正确信息或“幻觉”。缓解这些限制的一种有前途的方法是检索增强生成（RAG），RAG就像是一个外挂，将外部数据检索集成到生成过程中，增强模型提供准确和相关响应的能力。

算法进阶

2024/05/31

6900

RAG科普文！检索增强生成的技术全景解析

系统代理模型数据搜索

增强生成 (RAG) 是塑造应用生成式 AI 格局的关键技术。Lewis 等人在其开创性论文中提出了一个新概念面向知识密集型 NLP 任务的检索增强生成之后，RAG 迅速成为基石，提高了大型语言模型 (LLM) 输出的可靠性和可信度。

致Great

2025/02/15

4940

CAG: 基于上下文感知的检索增强生成

数据系统性能论文模型

论文链接:https://arxiv.org/abs/2411.16133 代码链接:https://github.com/heydaari/CAG

致Great

2024/11/29

1760

基于检索增强的 GPT-3.5 的文本到 SQL 框架，具有样本感知提示和动态修订链。

论文模型 sql gpt 框架

论文标题：Retrieval-augmented GPT-3.5-based Text-to-SQL Framework with Sample-aware Prompting and Dynamic Revision Chain

叶庭云

2024/05/25

1380

基于检索增强的 GPT-3.5 的文本到 SQL 框架，具有样本感知提示和动态修订链。

检索增强（RAG）与窗口数据的互补性 (图文版）

LLM

RAG（检索增强生成）与扩展的上下文窗口（context window）虽然同为短期记忆机制，但在应用场景、成本效率和数据管理方面存在显著差异，以下为详细分析：

立委

2025/03/20

390

RAG 2.0架构详解：构建端到端检索增强生成系统

数据系统性能架构模型

关于检索增强生成（RAG）的文章已经有很多了，如果我们能创建出可训练的检索器，或者说整个RAG可以像微调大型语言模型（LLM）那样定制化的话，那肯定能够获得更好的结果。但是当前RAG的问题在于各个子模块之间并没有完全协调，就像一个缝合怪一样，虽然能够工作但各部分并不和谐，所以我们这里介绍RAG 2.0的概念来解决这个问题。

deephub

2024/04/26

1.7K0

一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操（含源码）

数据库存储模型数据源码

针对大型语言模型效果不好的问题，之前人们主要关注大模型再训练、大模型微调、大模型的Prompt增强，但对于专有、快速更新的数据却并没有较好的解决方法，为此检索增强生成（RAG）的出现，弥合了LLM常识和专有数据之间的差距。

ShuYini

2023/12/21

39.5K76

RbFT：针对RAG中检索缺陷的鲁棒性微调

数据系统效率性能论文

这篇论文旨在提高大型语言模型（LLMs）在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中对检索缺陷的鲁棒性。具体来说，论文关注以下几个关键问题：

致Great

2025/02/11

1110

干货！带你了解7种检索增强生成 (RAG) 技术

知识图谱工作模型搜索系统

在简单RAG中，大型语言模型（LLM）接收用户查询，在向量存储库中进行相似性搜索或在知识图谱中进行关系搜索，然后基于检索到的信息生成答案。

致Great

2025/01/06

3.8K0

大模型微调与RAG检索增强有何区别？从基础原理到案例分析全面详解

大模型部署 LLM 大模型知识引擎

如果你一直在跟着Fanstuck博主的脚步探索AI大模型的相关内容，从最初的大模型Prompt工程解析，DeepSeek全面解析，到实际的私有化大模型开发部署，再到深入NL2SQL、知识图谱大模型和ChatBI等更高阶应用.我是Fanstuck，致力于将复杂的技术知识以易懂的方式传递给读者，热衷于分享最新的行业动向和技术趋势。如果你对大模型的创新应用、AI技术发展以及实际落地实践感兴趣，那么请关注Fanstuck。

fanstuck

2025/03/04

5326

【RAG重大革新】中科院&腾讯提出INFO-RAG：大模型秒变信息精炼器，不完美数据也能生成完美答案

系统论文模型数据腾讯

RAG被应用于大语言模型（LLMs），以补充知识并缓解幻觉等问题。但是互联网中充斥的虚假新闻、谣言及碎片化噪声信息，并非所有检索文本均有益，仍对检索模型可靠识别和屏蔽此类内容的能力构成挑战。同时，预训练任务未明确教会LLMs如何利用质量参差的检索文本进行生成。

AI研思录

2025/02/28

930

【RAG重大革新】中科院&腾讯提出INFO-RAG：大模型秒变信息精炼器，不完美数据也能生成完美答案

Auto-RAG：基于大模型的自主检索增强生成

auto 论文模型数据性能

论文链接:https://arxiv.org/abs/2411.19443 代码链接:https://github.com/ictnlp/Auto-RAG

致Great

2024/12/04

4040

RAG：我不只是一个检索器！

人工智能 LLM 腾讯技术创作特训营S7

年初在我独到的技术见解：LLM的演进与发展文章中和大家分享了LLM的应用和发展，其中有简单介绍过RAG技术，也提到我个人建议在大模型的应用中，能用prompt搞定就别碰RAG，能利用好RAG技术实现需求就别去训练模型，非要训练模型能sft就别pretrain，以上三个大招都用上都实现不了你的需求，非要训自己的垂域大模型，那就快点准备数据，真正应用的时候，估计还是躲不掉三面三步。（不针对算法人员，我说应用呢~）

languageX

2024/06/22

9700

利用“检索增强生成”技术为 LLM 注入新鲜元素

数据库模型数据搜索 LLM

像 GPT 这样的大型语言模型是在大型语料库数据上进行离线训练的。这使得模型对于在它们训练之后生成的任何数据一无所知。本文介绍了如何对它们进行更新。

云云众生s

2024/03/27

1670

2024技术总结：LLM之RAG技术全栈进化解析、Agent应用案例精选、LLM大模型部署实战指南

模型全栈 LLM agent 部署

嘿，大家好！作为一名技术宅，我在2024年与AI的大型语言模型（LLM）技术有了不少“亲密接触”，感觉就像是和一位日益聪明的老友并肩前行。

汀丶人工智能

2025/01/25

4040