首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

TruthX: 激活LLM真实性,降低LLM幻觉

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。“源享计划”即开源共享计划,各类开源模型、数据集、代码等,欢迎发布到wisemodel.cn社区。wisemodel社区持续招募志愿者,欢迎通过《加入wisemodel社区志愿者团队》了解详情。

大模型展现出了非常惊艳的文本生成效果,但是目前大模型仍然存在一个非常致命的缺陷,容易产生”幻觉“ (Hallucination),这对于大模型的实际部署是一个非常具有挑战性的问题。本文介绍了一种通过编辑LLM内部表示来激活LLM真实性的推理方法——TruthX。

论文链接: https://arxiv.org/abs/2402.17811

GitHub仓库: https://github.com/ictnlp/TruthX

-引 言-

本文关注一个基本问题:尽管大模型在拥有正确知识的情况下,还是有可能产生幻觉。本文提出一个名为TruthX的推理时方法,通过在真实空间中编辑LLM的内部表征来激活LLM的真实性,从而减轻LLM的幻觉。TruthX在LLM内部表示中识别到一个真实性方向(truthful direction),可以通过仅编辑真实空间中的一个向量来控制LLM生成真实或幻觉的响应。

下图展示了在Llama-2-7B-Chat上应用TruthX的生成结果,正向编辑可以激发LLM产生真实回复;而负向编辑完全破坏LLM真实性,生成充满幻觉的回复。

在真实性评估的TruthfulQA 基准上,TruthX 将 13 个最先进的LLMs的的真实性平均提高了20%。

-方 法-

TruthX的构建过程包括三步:

1.提取LLM内部表示

TruthX首先构造了(问题,真实回复,幻觉回复)的三元组,然后使用真实回复和幻觉回复分别激活LLM,获取LLM在不同刺激下的内部表示(attention模块和FFN模块的输出)。

2.利用自编码器(auto-encoder)探测LLM内部的真实性空间

TruthX利用auto-encoder将提取到的LLM内部表示映射到真实性隐空间(truthful space)和语义隐空间(semantic space)中,并从隐空间重构出LLM的内部表示。

在训练中,TruthX在真实回复在幻觉回复的表示间应用对比学习(contrastive learning)来区分真实/幻觉回复在truthful space中的分布,并在隐空间中探测出一个真实性方向(truthful direction)。

3. 推理时编辑LLM内部表示

在推理过程中,TruthX将LLM中的内部表示映射到真实性隐空间和语义隐空间,并沿着探测到的真实性方向编辑真实性隐空间中的表示。最后,TruthX将重构出的表示放回LLM内部,从而激发LLM的真实性。

-实验结果-

1. TruthX提升LLM真实性

本文在TruthfulQA 基准上进行实验,该数据集包含了817个有关真实性的评估问题,设置有两个评估任务:开放式生成任务和多项选择任务。结果如下表所示,TruthX能有效提升LLM的真实性。

2. TruthX有效调控LLM生成真实/幻觉的回复

TruthX沿着真实性方向可以激活LLM产生真实回复;沿着反方向仅需要一个向量即可破坏LLM的真实,产生充满幻觉的回复。

更多实验结果与分析,请参考论文。

-总 结-

本文提出TruthX,其通过在真实空间中编辑 LLM 来增强真实性,并且在LLM真实性控制上表现出卓越的能力。作者发布了内置了TruthX的Llama-2-Chat模型,您可以直接从wisemodel社区下载使用,获得真实性增强的LLM。

供稿:张绍磊

始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”)

系统升级

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OM0GKaQ_9Uys3CUj92_9CSoQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券