首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >对抗检索噪声!中科大团队提出RAAT算法,大模型抗干扰性能飙升200%

对抗检索噪声!中科大团队提出RAAT算法,大模型抗干扰性能飙升200%

作者头像
AI研思录
发布2025-03-03 15:03:40
发布2025-03-03 15:03:40
2810
举报
文章被收录于专栏:AI研思录AI研思录

点击关注我们,🚀这里是AI技术、产品、工程与学术的交汇点!我们致力于为您带来最前沿的AI资讯、最深入的技术解析、最实用的产品应用以及最具启发性的学术成果。

检索增强生成 通过整合外部数据库的知识,来缓解大模型存在的幻觉问题、知识过时以及推理过程不可追溯等问题。然而,不恰当的检索段落可能会限制LLMs生成全面且高质量响应的能力,导致性能下降,将这个问题定义为噪声鲁棒性问题。

当检索到的上下文准确且与查询相关时,模型能够提供正确答案;但当检索到的上下文包含误导性或不准确的信息时,模型可能会生成错误的答案。由于检索器本身无法实现完全准确,检索上下文中噪声的存在是不可避免的。因此,设计针对检索噪声的鲁棒算法具有重要的实际意义。

噪声类型主要有以下三种:

  • 相关检索噪声:与查询表面相关但缺乏正确答案的上下文,这类噪声看似相关却可能误导模型;
  • 无关检索噪声:与查询无关的上下文,通常由检索错误导致,内容多为无关主题;
  • 反事实检索噪声:与查询主题相关但包含错误信息的上下文,可能源于检索数据库本身的错误。

为了增强大模型在多种检索噪声环境下的鲁棒性,有些系统尝试通过噪声训练,即通过微调,在数据中引入检索到的噪声上下文,本质上这是一种离线数据增强方案。

中科大&中科院深圳先进技术研究院&深圳大学&哈工大 多家单位联合提出了 RAAT: 检索增强自适应对抗训练。RAAT动态调整模型在不同噪声环境中的训练过程,同时结合多任务学习,鼓励模型提高识别不同类型噪声的能力。

对抗训练则通过在线数据增强实现类似目标,在构建对抗样本(即噪声样本)时,最小最大化优化策略(Min-Max Optimization)扮演关键角色,其包含两个核心步骤:

  • 最大化阶段:调整输入数据以故意误导模型,使其产生最大预测误差;
  • 最小化阶段:调整模型参数以增强其对扰动输入的抵抗力。

该策略旨在平衡模型性能,使其既能准确识别正常数据,又能防御对抗样本的攻击。

微调对抗训练虽然都涉及对模型的调整,但两者的目标、方法和对噪声的处理方式存在本质区别。

核心目标不同

维度

微调(Fine-tuning)

对抗训练(Adversarial Training)

目标

使模型适应特定任务或数据分布(如带噪声的检索上下文)

增强模型对最坏情况扰动的鲁棒性,使其在对抗性输入下保持稳定

侧重点

提升模型在特定场景下的任务性能(如问答准确率)

提升模型对噪声/攻击的防御能力(如忽略错误检索结果)

对噪声的处理方式不同

维度

微调(Fine-tuning)

对抗训练(Adversarial Training)

噪声引入方式

静态引入:在训练数据中预先添加固定类型的噪声(如随机替换文本)

动态生成:在训练过程中实时生成针对性噪声(如最大化模型损失的扰动)

噪声类型

通常是随机或预先定义的噪声(如无关段落、错别字)

对抗性噪声:通过算法生成的、能欺骗当前模型的扰动(如反事实误导信息)

优化方向

模型被动学习噪声数据的分布,降低其对噪声的敏感度

模型主动学习抵御最坏情况扰动,强化对噪声的免疫力

RAAT-检索增强自适应对抗训练通过动态噪声适应策略的训练多任务噪声感知学习的训练两种策略的协同,RAAT使模型既能抵抗动态变化的噪声干扰,又能主动识别噪声类型,显著提升复杂检索环境下的可靠性。

动态噪声适应策略

  1. 生成多样化噪声样本:在每轮训练中,为每个查询生成四类输入——黄金上下文(正确答案相关)、相关噪声(表面相关但无答案)、无关噪声(完全无关内容)、反事实噪声(主题相关但信息错误)。
  2. 实时评估噪声影响:模型分别处理这四类输入,计算各自的生成损失(即答案的预测错误程度)。例如,若模型在反事实噪声(如“票房1.2亿美元”)上生成错误答案,其损失值会显著高于其他噪声类型。
  3. 动态选择最棘手噪声:每轮训练仅选择损失最大的噪声样本(如反事实噪声)进行参数更新。例如,若模型当前最容易被反事实噪声误导,则优先优化此类样本,迫使模型学会忽略错误信息。
  4. 平衡优化防过拟合:引入正则化项,强制模型对不同类型的噪声保持均衡敏感性。例如,若模型过度适应反事实噪声但忽略无关噪声,正则化项会惩罚这种偏差,确保综合抗干扰能力。

多任务噪声感知学习

  1. 添加噪声分类任务:在模型顶部增加一个分类层,要求模型在生成答案的同时,判断当前输入属于哪类上下文(黄金、相关噪声、无关噪声、反事实噪声)。
  2. 联合训练生成与分类:生成任务:以“黄金上下文+查询”为输入,优化答案准确性(如正确回答“票房21.87亿美元”)。分类任务:以“噪声上下文+查询”为输入,预测噪声类型(如识别“票房1.2亿美元”属于反事实噪声)。
  3. 共享底层特征学习:模型底层参数同时服务于生成和分类任务。例如,在生成答案时学到的语义理解能力,会被复用至噪声分类中,帮助识别“单位错误”(如混淆“亿”和“万”)等隐蔽噪声。
  4. 增强噪声敏感度:通过分类任务的监督信号,模型逐渐学会区分有效信息与干扰内容。例如,当输入包含“导演诺兰”这类表面相关但无答案的噪声时,模型会标记其为“相关噪声”,并在生成答案时主动忽略。

输入数据: 黄金上下文:“全球票房21.87亿美元(含2012年重映)。” 噪声上下文: 相关噪声:“卡梅隆导演耗时5年制作。” 无关噪声:“电影原声专辑销量破纪录。” 反事实噪声:“票房仅1.2亿美元。” 动态适应阶段: 模型对反事实噪声的损失最高(因答案偏差大),优先优化此样本。 调整参数后,模型学会忽略“1.2亿美元”的误导,转而依赖黄金上下文。 多任务学习阶段: 分类任务迫使模型识别“1.2亿美元”属于反事实噪声,增强内部过滤机制。 生成任务结合分类结果,最终输出正确票房数据。

RAAT通过动态噪声适应策略多任务噪声感知学习实现协同优化,动态噪声适应策略负责优化模型对噪声的鲁棒性(生成任务),多任务噪声感知学习,负责提升模型对噪声类型的识别能力(分类任务)。

基于三个开放域QA数据集建立了基准来验证RAAT的有效性。实验结果表明,经过RAAT微调的LLaMA2-7B模型在多种噪声条件下的F1和EM分数均有显著提升。

代码地址:https://github.com/calubkk/RAAT 论文地址:https://arxiv.org/pdf/2405.20978

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研思录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档