大模型幻觉问题是指模型生成的文本内容不基于任何事实数据,直白一点就是胡说八道。该问题是大模型应用落地的主要障碍之一,尤其是对文本内容的及时性、准确性和逻辑一致性标准要求较高的场景,例如在医学、法律、金融和新闻等。
为了有效控制幻觉在语言生成中的问题,除了设计新的训练方法和模型架构之外,制定一个全面、统一的基准来评测幻觉现象显得至关重要。为此,中国人民大学、IAAR等提出了一种新的幻觉评测基准UHGEval,除此之外,还提出了一个安全、可扩展和用户友好的评测框架,以促进全面评测。
Paper:https://arxiv.org/abs/2311.15296
Code:https://github.com/IAAR-Shanghai/UHGEval
作者信息:中国人民大学,上海算法创新研究院,新华社媒体融合生产技术与系统国家重点实验室
为了有效控制幻觉在语言生成中的问题,除了设计新的训练方法和模型架构之外,制定一个全面、统一的基准来评测幻觉现象显得至关重要。缺乏这样的基准将使得该领域的研究工作难以进行横向对比,也阻碍了其良性发展。
目前已经涌现出一些比较知名的用于评测幻觉的基准,包括TruthfulQA、HADES、HalluQA、ChineseFactEval等。然而,这些现有的基准大多存在一定的问题。
目前普遍采用的是「约束式生成范式」,以定向生成可预测类型的幻觉。然而,这种生成方法与现实世界场景存在不一致,因为在真实环境中,幻觉可能会在不受限制、自发生成的内容中显现。
现有的评测基准往往在标注数据时「仅限于句子级别的幻觉,而在关键词级别的标注粒度较少」。然而,从不同粒度上对大语言模型的分辨能力进行评测不仅更具挑战性,而且可以为解决幻觉问题提供新的启示。
大多数评测基准主要集中在英语幻觉上,「而中文幻觉评测数据集较少」。据文献所述,仅有两项中文领域的相关工作,分别是复旦大学的HalluQA和上海交通大学的ChineseFactEval,其数据规模分别仅有450条和125条,存在数据量相对较小的问题。
为了应对上述挑战,本文作者提出了一种新的幻觉评测基准UHGEval,一个全面的中文专业生成领域的幻觉评测基准。该基准包括三个部分:
关于UHGEVAL基准数据集的制作主要包括数据收集预处理、无约束幻觉生成、幻觉排名、自动标注和人工复检四个步骤,具体如下图所示:
该阶段使用涵盖2015年1月至2017年1月数万条来自中文权威新闻网站的原始新闻作为数据集来源,并将其划分为开头部分,续文部分以及参考信息。开头部分被用作待续写的文本,续文部分是续写的正样例,参考信息被用来视作后续标注和评测的参考。
该阶段同时还包括新闻类别的细分方案和数据筛选过程。数据集中的新闻示例分为四大类型:文档密集型、数字密集型、知识密集型和一般新闻。数据集基本概况如下图所示:
UHGEval在生成内容的方法上与其他同类工作有所不同。具体而言,在生成内容时,模型通过减少提示词的指导,使其不再受到具体指令的约束,而是直接将待续写的开头部分提供给大语言模型,以获取最终的候选续写。因此,这两个方面共同构成了模型和提示的无约束候选幻觉生成的框架。
对于生成的5个候选幻觉文本,UHGEval从「文本流畅性」和「幻觉发生可能性」两个维度进行排名。UHGEval使用自研的奖励模型(reward model)来评价续写的流畅性,使用「提出的kwPrec指标」来评价续写发生幻觉的可能性。通过排名,最终会筛选出一个较为流畅,同时较为可能发生幻觉的目标候选续写文本。
「关于kwPrec指标」。这种方法最初使用LLM从续写文本中提取关键字,并确定这些关键字在引用信息中是否匹配。然后计算所有匹配项与总关键字的比率。由于LLM通常更有效地提取适当的关键词,因此kwPrec更关注事实相关性,而不是表达相关性。
UHGEval提出了一种基于关键词的标注方案,旨在筛选出真正存在幻觉内容的文本。该方案使用了超过上万条候选续写文本,并通过GPT-4模型进行关键词粒度的标注,这些关键词的标注涉及幻觉的存在与否,以及存在幻觉的原因。
随后,由人工对GPT-4标注的准确性进行判断,并仅保留那些被人工认定为GPT-4标注准确且包含幻觉关键词的续写文本。这一流程设计在保障标注准确性的同时,也在成本控制方面取得了平衡,最终形成了一个可靠的数据集。
研究一共使用了11个大模型。其中,3个来自GPT系列的模型,GPT3.5-Turbo,GPT4-0613和GPT4-1106;以及8个中文大语言模型,ChatGLM2-6B,Xinyu-7B,Xinyu2-70B,InternLM-20B,Baichuan2-13B,Baichuan2-53B,Qwen14B,Aquila2-34B。
文章对评测首先进行了三个层级的解构,认为评测包括形式,指标和粒度。形式是指模型如何与数据集交互,包括人类评测、判别式评测(Discriminative Evaluation)、选择式评测(Selective Evaluation)和生成式评测(Generative Evaluation);指标是具体计算量化表现的方法,如准确率,ROUGE,kwPrec,BERTScore等;粒度指幻觉标注的粒度,如句子粒度,关键词粒度等。
「判别式评测」 该评测使LLM能够以“是”或“否”的二进制答案进行响应。具体来说,这种评测模式包括在仔细审查的LLM中呈现一个初始文本,然后是一个可能包括幻觉也可能不包括幻觉的延续,LLM的任务是对幻觉的存在做出判决。
「选择式评测」 与判别式评测类似,选择性评测允许LLM通过在选项A或B之间进行选择。具体来说,在选择性评测中,评测中的LLM有一个初始文本,后面是两个续写文本:一个包含幻觉,另一个不包含幻觉。LLM的目的是确定两者中哪一个产生了幻觉。
「生成式评测」 该种评测方式直接评测LLM生成的文本中是否存在幻觉。具体来说,为评测中的LLM提供初始文本,然后负责生成续写文本。随后,利用各种基于参考的技术来确定续写文本是否包括幻觉。生成性评测仍然是自然语言生成(NLG)任务中的主要策略。
为了适应不同形式的评测方法,本文作者开发了一个数据安全、易于扩展和易于使用的评测框架,该框架包括依赖层,评测器层,核心层和界面层四层,如下图所示。
文章使用三个不同的评测器,对11个大模型展开了详尽的实验分析,如下表所示。
同时也分析了不同新闻类型导致幻觉的差异性,如表6所示。
文章介绍了一个使用无约束幻觉生成的新的基准数据集,包括一个专门为幻觉新闻连续性策划的数据集,该数据集包括5000多个在关键字级别注释的实例。此外,文章提出了一个安全、可扩展和用户友好的评测框架,以促进全面评测。通过对11个知名的LLM的进行实验,作者发现了一系列富有启发性的发现,详情可见论文原文。