视觉语言模型是偏向于纹理还是形状，我们能否对它们进行引导

DrugAI

发布于 2024-04-19 18:42:40

1470

发布于 2024-04-19 18:42:40

文章被收录于专栏：DrugAI

今天为大家介绍的是来自Janis Keuper团队的一篇论文。在过去几年里，视觉语言模型（VLMs）极大地改变了计算机视觉模型的格局，为我们开启了一系列激动人心的新应用，从zeroshot图像分类到图像描述再到视觉问题回答。与纯视觉模型不同，它们通过语言提示提供了一种直观的方式来访问视觉内容。这类模型的广泛适用性促使我们去探究它们是否也与人类视觉一致——特别是，它们在多模态融合中是否采纳了人类的视觉偏见，或者它们仅仅继承了纯视觉模型的偏见。一个重要的视觉偏见是纹理与形状之间的偏好，或者说是局部信息对全局信息的主导性。在这篇论文中，作者研究了一系列流行的VLMs中的这种偏见。有趣的是，作者发现VLMs通常比它们的视觉编码器更倾向于形状，这表明通过文本在多模态模型中对视觉偏见进行了一定程度的调整。

正如那句老话所说，所有模型都是错的，但有些是有用的。同样地，所有（机器学习）模型都是有偏见的，但根据“没有免费午餐”定理，只有某些偏见是有用的。语言模型中观察到的大多数偏见反映了源于不平衡训练数据的社会特性，而视觉模型被证明与人类感知特别不一致，这种不一致被称为纹理与形状偏见。具体来说，在识别物体时，相对于纹理，物体的形状对模型来说通常扮演较小的角色。相反，人类主要通过物体的形状来做决定（在纹理和形状的决策中，形状占96%）。这一发现受到了极大的关注，因为它表明，尽管我们的视觉模型在专门任务上接近人类水平的准确性，但它们在模仿人类感知的基本原理方面做得很差。随着当前代深度学习模型日益成为多模态，这些模型是继承了来自它们的文本编码器、视觉编码器的某些偏见，还是这些偏见通过多模态融合相互作用和结合，往往不太清楚。特别是对于（仅限视觉的）纹理与形状偏见，作者对语言如何影响这种偏见感兴趣。如果语言确实能够影响仅限视觉的偏见，这就提供了一种通过提示简单直观地对齐和引导偏见的可能性。

图 1

作者研究了最近的视觉语言模型（VLMs）中纹理与形状偏见及其可操控性。这里使用VLM来指代那些接受文本/视觉输入并输出由大型语言模型（LLM）生成的文本的模型。作者的调查显示，与之前研究的大多数仅限视觉的模型相比，在VLMs中模型天生对纹理的偏好远不那么明显。正如图1所示，即使在中性提示的情况下，大多数VLMs更频繁地通过形状而非纹理做出决策（尽管这并没有接近人类对形状的偏好）。

方法部分

作者使用了纹理-形状提示分类问题模型，该问题包含了1,280个样本，这些样本具有冲突的形状和纹理提示，通过风格转换模型从ImageNet样本中合成生成。形状和纹理类别属于ImageNet的16个超类。仅从信息的角度来看，预测任一标签（或两者都预测）都是正确的。然而，人类倾向于优先考虑形状提示进行预测，这与大多数纹理-形状模型的分类结果形成了鲜明对比。使用形状或纹理提示标签作为正确标签，允许我们分别测量形状和纹理的准确性。基于这些测量，作者将提示准确性定义为包含形状或纹理标签的预测比例（与错误分类相对）：提示准确性 = 形状准确性 + 纹理准确性。在整篇论文中，作者将这称为准确性。随后作者定义形状偏见的指标，它由准确决策中形状决策的比例定义：形状偏见 = 形状准确性/提示准确性。

作者在两个常见任务中测量视觉语言模型（VLMs）的纹理/形状偏见：视觉问题回答（VQA）以及图像描述。在这两种情况下，作者都使用提示冲突数据集进行单轮回答，回答之间没有共享的对话历史。

对于图像描述这个任务，作者指导模型生成简短的描述（“描述图像。保持你的回答简短。”）。作者特别要求模型提供一个简短的回答，以鼓励它根据自己的判断突出图像最关键的方面。此外，这样做还有利于加快推理速度。由于回答是开放式的，这里依赖于对生成的描述进行zeroshot分类，以归纳出最具描述性的类别。为此作者使用ember-v1嵌入生成的描述和所有（原始）类别标签，并预测余弦距离最小的类别（类似于CLIP的zeroshot分类）。然而，生成的标题可能会提到多个类别标签（或没有）。作为额外的信号，作者使用另一个大型语言模型（Nous-Hermes-2-Mixtral-8x7B-DPO）进行更细致的分析，指导模型提取所有提及的类别。

对于VQA任务作者遵循LLaVA中的提问风格，问模型“哪个选项最好地描述了图片？”并以字母枚举所有类别标签的方式提供选项，比如“A. airplane”。为了简化回答提取和信心评估，作者通过指示模型仅用对应正确答案的字母回答来结束提示（“直接用给定选择中的选项字母回答。”）。

形状偏见结果部分

图 2

作者通过在视觉问题回答（VQA）和图像描述任务中测量形状偏见来开始实验评估，使用了一系列多样化的视觉语言模型，反映了众多研究方向。这些模型包括常见的预训练CLIP编码器等。此外作者还调查了像Gemini Pro Vision 1.0、GPT-4V（预览版）和Qwen-VL Plus/Max这样的商业闭源模型，这些模型只能通过API访问，且已知的细节不多。图2的结果描绘了一个相当统一的画面。在不同的模型和两个不同的任务上，大多数VLMs在形状偏见方面的表现相对类似。VLMs的形状偏见仍然显著低于人类（96%），但总体上高于典型的仅图像的判别分类器（例如，ImageNet训练的ResNet-50的22%）。对于大多数模型，形状偏见高于常用的视觉编码器CLIP ViT-L/14（60%）的形状偏见。

在形状偏见方面，最强的形状偏见观察在InstructBLIP Vicuna-7B针对VQA任务中，但这个模型通常显示出相比其他模型较低的准确性。值得注意的是GPT-4V是一个异常模型。鉴于GPT-4V通常达到SOTA（最先进）性能，并被视为一个重要的基准，与大多数其他模型相比，它有一个令人惊讶的差的准确性——主要是因为拒绝回答：在1280个VQA对话中有131个拒绝回答，即大约10%，这远高于所有其他模型的拒绝率（<1%）。需要注意的是，拒绝率不影响形状偏见的测量。在相同的提示下，其他VLMs大多表现良好。有趣的是，GPT-4V在两个任务中也比大多数模型更倾向于纹理偏见。

控制纹理/形状偏见

作者在这里试图测试纹理/形状偏见的表征有多灵活，以及我们是否可以系统地引导它——首先通过视觉引导或预处理，然后通过语言或提示工程。由于纹理/形状偏见是一种视觉偏见，作者通常期望视觉引导有更多的灵活性。然而，能够仅通过语言引导视觉偏见提供了一种强大的方式，以用户指定的方式塑造视觉偏见。

图 3

早期的研究表明，即使将图像切分成小块并打乱顺序，ImageNet模型仍然能够检测到物体。随着小块尺寸的减小，这种操作破坏了更多的全局形状信息，但保留了局部纹理信息。虽然直观上作者认为这也适用于VLMs并显著降低形状偏见，但作者强调准确量化形状偏见并理解这些模型是否仍然能够进行检测。为了增加形状偏见，作者尝试了使用高斯噪声处理输入。这种做法受到了在训练和推理中应用“扩散类似噪声”的启发，这已被证明可以极大提高ImageNet-ResNets的形状偏见。作者在图3中展示了LLaVA-NeXT 7B的结果，也与其CLIP编码器在zeroshot分类下和在ImageNet上微调的结果进行了比较。增加噪声的结果使VLMs的形状偏见提高到89.5%，而打乱小块减少了形状偏见（增加了纹理偏见），在28×28小块时降到8.4%。CLIP编码器上也能看到了类似的趋势。受到这些强有力结果的启发，作者在更加倾向形状偏见且更大的InternVL-Chat 1.1上重复了实验。在这个模型中可以将形状偏见的范围进一步扩大到91.7%。虽然极端调整形状偏见会以准确性为代价，但所有结果仍然远远超过随机结果。

图 4

之前的结果表明，视觉语言模型（VLMs）学习了形状和纹理的多模态理解。这引发了一个问题：这些模型中的视觉偏见是否可以通过文本处理来影响。作者通过记录纹理/形状偏见作为一个函数来测试这一假设，通过文本提示工程来引导它们。作者首先要求VLMs在给定的提示冲突图像中特定识别“形状”或“纹理”类别。这种人工制作的偏见提示方法确实在一定程度上引导了形状偏见：如图4所示，提示可以引导视觉偏见（而不显著影响准确性）。中性提示经常与形状偏见提示表现类似，而纹理偏见提示则呈现显著地偏离。这表明模型可能默认更倾向于使用形状，但也能访问一定量的纹理信息，这些信息可以通过偏见提示来访问。对于两个模型（InternVL-Chat 1.1和LLaVA-NeXT 7B），作者还替换了纹理/形状术语（使用从Thesaurus.com获取的强同义词）。任一术语的同义词也能在一定程度上引导形状偏见。对于“纹理”的同义词，作者观察到更多的变异，因为“纹理”常常被不同的含义重载（例如，一些同义词如“感觉”、“味道”或“触感”与视觉中的纹理无关）。相比之下，“形状”是一个定义相当清晰的术语。

虽然通过语言引导的效果系统性地可见，但仅靠语言引导并没有根本改变对底层提示的依赖。这种效果似乎不受LLM容量的限制：作者在InternVL-Chat 1.2+（34B对比13B）上进行了额外的研究，但没有获得更大的LLM保证更多可引导性的证据。有趣的是，作者关于通过语言引导的实验发现与人类心理物理实验室实验的结果平行。心理学家进行了控制实验，要求人类在忽略纹理的情况下识别形状，反之亦然。这种“人类提示引导”有效，但只在一定程度上：当人类被要求忽略形状时，人类的形状偏见从96%（中性指令）仅降低到大约70%的形状偏见（纹理偏见指令）。目前的模型行为有些相似：通过提示，它们的视觉形状偏见可以被引导，但它们似乎很难完全违背它们的默认视觉偏见。

编译 | 曾全晨

审稿 | 王建民

参考资料

Gavrikov, P., Lukasik, J., Jung, S., Geirhos, R., Lamm, B., Mirza, M. J., ... & Keuper, J. (2024). Are Vision Language Models Texture or Shape Biased and Can We Steer Them?. arXiv preprint arXiv:2403.09193.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-04-16，如有侵权请联系 cloudcommunity@tencent.com 删除

数据