【他山之石】ACL 2024 | 大型视觉语言模型输出幻象，不妨来场灵魂拷问！

马上科普尚尚

发布于 2024-05-22 18:23:06

1090

发布于 2024-05-22 18:23:06

物体幻觉一直是阻碍大型视觉语言模型（LVLM）更广泛应用的致命弱点。物体幻觉是指 LVLM 声称图像中出现了本不存在物体的现象。这类幻觉问题严重降低了LVLM 的可信度，在安全相关的场景中，幻觉将导致难以承受的后果。以图1为例，LVLM虽然感知到了图片中真实存在的“餐桌”、“椅子”和“香蕉”，但幻视出了并不存在的“苹果”和“男孩”。

当前已有许多科研团队尝试缓解LVLM 中的幻觉，尽管在减轻幻觉方面取得了一定的效果，但仍然存在一些缺点：需要大量的计算资源，依赖于外部检测模型，或者需要访问模型的内部参数等。

图1. 物体幻觉样例。LVLM幻觉“苹果”和“男孩”的存在。经拷问，其对于苹果的回答出现了逻辑矛盾。

然而，我们发现，通过拷问LVLM，其前后回答的一致性能够一定程度反映回答中的物体幻觉。例如在图1中：1. 首先询问获得“苹果”的属性“红色”，接着询问“什么物体是红色”时，模型没有回答“苹果”。对于幻觉物体“苹果”，LVLM回答的逻辑出现矛盾。2. 询问获得“香蕉”的描述“在桌子上”，随后当询问“哪个物体在桌子上”时，模型正确回答“香蕉”。对于真实物体“香蕉”，LVLM的回答是逻辑一致的。

进一步探究我们发现，令LVLM描述幻觉物体时，描述的属性主要有两个来源：图像中其他物体的属性，或者图像中不存在的虚构属性。当询问“哪些东西”拥有这些属性时，模型可能回答满足属性的其他物体、也可能无法定位到符合虚构属性描述的物体，即在回答中不容易再次引入幻觉物体。这一观察表明， LVLM 对于幻觉物体，其回答容易出现逻辑矛盾。

基于这一观察，我们提出了一种仅通过提问的方式以检测物体幻觉：对大模型进行一系列物体相关的逻辑拷问，若回答形成了逻辑闭环，则物体很可能存在，否则大概率为幻觉。（类似于刑侦片中警察盘问犯人，从多个角度追问细节，若回答形成了矛盾，则很可能是编造的）

该方法无需借助外部检测工具，仅通过提问来检测潜在的物体幻觉，不仅说明模型内部蕴含了和幻觉相关的信息，而且通过简单的提问方式、适用性广。

论文标题：Logical Closed Loop:Uncovering Object Hallucinations in Large Vision-Language Models, ACL Findings,2024.论文链接：https://arxiv.org/abs/2402.11622Github链接：https://github.com/Hyperwjf/LogicCheckGPT

如何只通过提问方式

检测物体幻觉

受图1所示逻辑一致性观察的启发，我们提出了一种新颖有效的框架，称为基于逻辑闭环检验的物体幻觉检测和缓解框架，简称LogicCheckGPT。分为两个阶段1. 第一阶段基于物体询问属性2. 第二阶段基于属性询问物体

模型的回复能否形成逻辑闭环即为物体幻觉的指标。

图2.提出的LogicCheckGPT框架

具体来说，根据提问的不同阶段，我们将框架分为5个步骤：

1) 物体提取

在 LVLM 的文本回复中提取待检测物体，例如图1中的"apple"和"boy"。

2) 物体到属性询问

询问目标物体的详细属性。这一步允许我们从 LVLM 获得有关物体的详细且具体的属性描述，从而有利于在后续步骤中构建属性到物体的问题。

3) 属性到物体询问

进一步构造后续问题来询问什么物体具有前面答案中提到的属性，与前一步的问题形成逻辑链条。

4) 逻辑闭环检查

检查物体到属性、属性到物体的逻辑关系是否能够形成闭环。该步骤可以被简化为判断回答中是否涵盖了被检测物体。

5) 幻觉检测和缓解

我们将每个被检测物体的逻辑闭环率定义为逻辑闭环的数量除以属性到物体的问答对总数。如果闭环占问题总数的比例超过一定阈值，我们则提示LLM消除回答中与幻觉物体相关的内容。

实验效果

为了全面评估LogicCheckGPT的效果，我们在2个代表性任务、3个数据集上进行了测评：1. Yes-or-No任务：二元分类任务，其中模型需要对给定的输入（通常是文本和图像）做出判断，并以"是"（yes）或"否"（no）的形式输出结果。2. 开放任务（Open-ended Task）：通常指的是没有固定答案或解决方案的任务，与那些有明确、有限输出的"封闭任务"（Closed-endedTask）相对。

Yes-or-No评测

在本文中，"yes-or-no"评测是用来评估和比较不同方法在缓解大型视觉语言模型（LVLM）中的物体幻觉问题上的效果。在本工作中，这项任务主要关注：

物体存在检测：模型需要判断图像中是否存在某个特定的物体。

这里我们用到的数据集是 POPE 和 MME Existence Subset。

整体效果：在POPE数据集的各个setting下，使用LogicCheckGPT对4个先进的LVLM均有显著提升。其中，对表现稍弱的mPLUG-Owl分别有31.33%, 33.00%, 34.67%的提升。即便是性能突出的LLaVa-1.5和QWEN-VL-Chat也有明显提升。在MME Existence Subset下的各个指标也有明显提升。

方法比较：与其他方法相比，基于指令微调的LRV-Instruction难以克服所有幻觉；基于回答语义一致性的SelfCheckGPT，对于LVLM过度自信的幻觉内容检测存在困难；后矫正的LURE方法基于微调的MiniGPT-4，受限于矫正模型MiniGPT-4本身能力的限制。我们的方法则对所有模型通用，而且逻辑拷问和逻辑闭环检验能够缓解模型过度自信的干扰。

表1.POPE实验结果

表2.MME ExistenceSubset实验结果

开放评测

"开放评测"（Open Evaluation）旨在评估模型在处理更加复杂和不确定的情境时的表现，本工作中主要使用“Describe this image in detail.”指令让LVLM自由描述图片。我们使用GPT-4v进行辅助评估，并使用以下评价指标：

准确性（Accuracy）： 生成内容的准确性，即模型的回答是否正确地反映了图像中的实际物体和它们的属性。
相关性（Relevancy）： 指令相关性，即模型的回答是否与提出的问题紧密相关，没有偏离主题。

表3.GPT-4v AssistedEvaluation实验结果

分析：我们的方法显著提高了每个模型的准确性，证明了我们的方法在减轻物体幻觉方面的有效性。此外，由于LogicCheckGPT可以去除不相关的幻觉信息并保留流畅的语言结构，因此可以保持甚至提高指令相关性。

消融实验与超参数分析

图3.消融实验

分析：在POPE数据集对抗性设置下的消融实验，证实了LogicCheckGPT框架中每个组成部分的整合对于提升性能至关重要。实验发现强调了在设计幻觉检测和缓解策略时，考虑问题的逻辑相关性和全面性的必要性。

图4.超参数分析

分析：超参数分析实验考察了LogicCheckGPT框架中幻觉阈值λ的不同设置对模型性能的影响，揭示了选择合适阈值对于模型性能的重要性，并指出了为不同模型甚至不同数据集调整阈值以获得最佳性能的必要性。

Case Study

我们可视化了两个样本，包含了Yes-or-No问题和开放问题。拷问的过程都证明了我们方法能够有效检测物体幻觉。

图5.Yes-or-No样例

图6.开放生成样例

总结与展望

我们提出了一种基于逻辑闭环的框架 LogicCheckGPT，用于减轻 LVLM 中的物体幻觉。LVLM 常对幻觉物体表现出逻辑不一致的反应，因此我们设计了逻辑一致性探测，涉及提出逻辑相关的问题，如询问物体的属性和由属性询问物体，最终基于逻辑闭环率筛选幻觉物体。综合实验证明了我们框架的优越性。逻辑闭环检验的思想本质上是通用的，有潜力扩展到其他类型的幻觉，以及各类大模型。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-21，如有侵权请联系 cloudcommunity@tencent.com 删除

性能