前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !

CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !

作者头像
AIGC 先锋科技
发布2024-07-08 13:09:06
830
发布2024-07-08 13:09:06
举报
文章被收录于专栏:AIGC 先锋科技

大型视觉语言模型(VLMs),如CLIP,在包括物体识别和目标检测在内的各种计算机视觉任务中做出了显著贡献。它们的开放词汇特性增强了它们的价值。 然而,它们在预测中的黑箱特性和缺乏解释性使得在关键领域中的可信度降低。最近,一些工作已经开始迫使VLMs为物体识别提供合理的解释,但这往往以牺牲分类准确度为代价。 在本文中,作者首先基于类别和解释的联合概率分布提出物体识别任务中解释性的数学定义,然后利用这个定义以可解释的方式微调CLIP。 通过不同数据集的评估,作者的方法在可解释分类方面展示了最先进的表现。值得注意的是,它在零样本设置中表现出色,显示了其适应性。这一进步改进了可解释的物体识别,增强了在多样化应用中的信任度。代码将在发表后在线提供。

I Introduction

大型视觉语言模型(VLMs),如CLIP ,彻底改变了图像分类。尽管早期的深度分类模型如AlexNet 和ResNet 取得了进展,但它们处理开放词汇分类的能力对它们在各种领域的适应性贡献显著。此外,通过在特定数据集上对它们进行微调,它们达到了惊人的准确度。

然而,一个基本挑战依然存在——它们的“黑箱”特性使得理解它们为何将图像分类到特定类别变得困难。这种缺乏解释性在需要信任和责任的领域,如医疗保健、自动驾驶车辆和法律体系中,构成了重大障碍。

为了解决这个问题,作者需要超越简单的预测准确度并提供分类的有意义解释的模型。这些有意义的解释被称为理由。在图像中,可能有多个理由导致作者识别出一个类别。大多数时候,理由更简单,更容易理解,使得人类和深度神经网络比仅凭类别更准确地识别它们。因此,问题在于迫使VLMs为其分类预测提供有用的理由。图1展示了这个过程。三幅图像输入到一个可解释分类器中,对其进行分类并附上相应的理由。例如,高墙是识别城堡的重要线索。

传统的如显著图[saliency maps] 的方法专注于识别有影响力的图像区域,但往往难以捕捉复杂DNNs的更广泛的推理过程。最近的视觉语言模型(VLMs)如CLIP 的进展在模型的可解释性方面提供了有希望的步骤。

CLIP 是一个对比视觉语言预训练模型,它在400百万(图像-标题)对上进行训练,这些数据来自互联网。

尽管它的分类准确度和零样本性能令人印象深刻,但正如第IV节和所示,CLIP在为预测提供有用理由方面面临挑战。为了提高CLIP的可解释性,Menon 利用GPT3 为每个类别生成描述性特征(理由),然后将这些特征与类别一起输入到CLIP中。他们的方法与普通CLIP相比,在各种数据集上提高了准确度,表明提供理由可以增强CLIP的性能。

然而,由GPT3生成的理由可能并非所有类别的图像中都存在,而且仅基于类别准确度的评估并不能确保预测类别时使用了正确的理由。为了解决这些局限性,Mao 引入了包含( 图像、类别、理由 )三元组的有价值数据集,并提出了一种新的可解释分类预测基准,要求CLIP预测图像的类别和理由。然而,当CLIP需要同时预测类别并提供有用的理由时,他们的方法显著降低了分类准确度。

图1:作者对可解释性的定义涉及有效利用真实和相关的视觉属性(以文本理由表示)进行目标识别和类别预测。

以前的工作探索了实现可解释性的各种方法,但保持预测准确度并提供有用理由的主要挑战仍未解决。在本文中,作者通过首先将不同的可解释性过程合并为基于类别和理由的联合概率分布的单一定义来解决这个问题。

这个统一定义是必要的,因为模型应该能够识别真正的类别和真正的理由,而不仅仅关注一个方面。然而,可解释性的关键在于利用理由进行类别预测。作者提出了一种基于提示的模型,该模型在第一步中预测照片中的理由,然后在第二步中使用这些理由预测类别。实验结果表明,尽管其具有可解释性,但这种方法在可解释分类方面达到了最先进的表现,无论是在单个数据集上还是在跨多个数据集的零样本场景中。

本文的结构如下: 在第二部分,作者进行了视觉语言模型、微调技术、可解释性和视觉推理的文献综述。

第三部分详细解释了作者提出的方法。

在第四部分,作者分析实验并展示结果。

最后,第五部分通过总结作者的贡献来结束本文。作者计划在论文发表后分享作者的代码。

II Related Work

Ii-A1 Vision Language Models

视觉-语言模型(VLMs)迅速崛起,在视觉信息与自然语言之间建立了强烈的联系。这些模型学习表示图像及其相应的文本描述,解锁了一系列多样化的能力,从生成捕捉场景动态和情感的详细图像标题,到回答关于视觉内容的复杂问题。它们在视觉与语言之间架起桥梁的能力,为各个领域的重大进步开启了大门。VLMs在图像搜索、人机交互[25]甚至创造性内容生成等应用中提供了无可匹敌的潜力。

Ii-A2 Explainability

尽管深度神经网络(DNNs)在图像分类方面表现出色,但它们的“黑箱”特性在需要理解预测背后“为什么”的应用中提出了挑战。这种缺乏可解释性降低了信任度和可解读性,特别是在敏感领域,如医疗保健、自动驾驶车辆和法定决策。虽然传统的可解释性方法,如显著性图和基于梯度的方法,为理解DNNs中的局部特征重要性提供了宝贵的见解,但它们通常难以捕捉到复杂模型更广泛的推理和决策过程[39]。最近在可解释人工智能方面的进展探索了更加全面的方法,利用大型语言模型(LLMs)生成文本解释[14, 40]。这些方法通过将模型决策转化为自然语言叙述,使DNNs的内部机制更加易于人类理解。

Ii-A3 Visual Attributes & Visual Reasoning

在最近计算机视觉的研究中,目标的视觉属性已经引起了关注。

然而,以前的模型并不能保证在做出预测时专注于目标本身的主要视觉属性。这个缺点增加了由于关注目标背景而造成错误分类的可能性。

作者的工作是在目标的视觉属性(理由)以及目标类别上进行训练的,这与其他 Baseline 相比,取得了更优的性能。

Ii-A4 Prompt-Tuning

在完全微调如Transformer 这样的大规模深度学习模型需要过多的资源和时间,在某些情况下并不可行。因此,最近的研究论文中使用了一种方法,即提示微调[49, 50],其中将特定数量的提示添加到 Transformer 的某个层中。具体来说,视觉提示被用于各种计算机视觉任务中,以微调视觉网络,例如VIT [51],通过引入比模型本身[6]更少的参数。在作者的工作中,作者使用了提示技术从图像中提取视觉理由。

III Method

在本节中,作者首先提供问题公式化(小节III-A),然后简要概述CLIP的架构(小节III-B),最后详细解释作者的模型,包括训练和推理(小节III-C)。

Problem Formulation

作者为目标识别任务引入了一个关于可解释性的通用定义,无论作者使用的是哪个基础模型。

定义1:考虑一个图像

I

,属于类别

c

,图像中与该类别对应的解释理由表示为

\left\{r_{i}\right\}_{i=1}^{m}

。一个可解释模型预期会为给定图像的真正类别和真实理由的联合概率赋予一个高值,表示为

P(c,\left\{r_{i}\right\}_{i=1}^{m}\left|I\right.)

虽然上述定义与人类的直觉相符,但它需要进一步澄清。对于可解释模型来说,为

P(c,\left\{r_{i}\right\}_{i=1}^{m}\left|I\right.)

赋予高值是必要的,但并不充分。准确预测真实类别和理由是必要的,但仅凭这一点还不够,因为预测类别和理由的方法也很重要。关于这个联合分布,有三种可能的情况需要考虑:

  • 如果作者假设给定图像时类别和理由之间是独立的,即
P(c,\left\{r_{i}\right\}_{i=1}^{m}\left|I\right.)=P(c\left|I\right.)P(\left\{r _{i}\right\}_{i=1}^{m}\left|I\right.)

,这种方法是有缺陷的,因为可解释性的本质在于利用理由来告知类别预测,表明它们之间存在依赖关系。

  • 或者,如果作者首先预测类别,然后基于它预测理由,即
P(c,\left\{r_{i}\right\}_{i=1}^{m}\left|I\right.)=P(c\left|I\right.)P(\left\{r _{i}\right\}_{i=1}^{m}\left|c,I\right.)

,这种方法是错误的,因为理由的目的是帮助类别分类,而不是反其道而行之。

  • 唯一合理的方法是首先在图像中识别出理由,然后基于它们预测类别。

在第三节C部分,作者将详细阐述如何使用CLIP来建模这两个概率分布,

P(\left\{r_{i}\right\}_{i=1}^{m}\left|I\right.)

P(c\left|\left\{r_{i}\right\}_{i=1}^{m},I\right.)

CLIP Overview

考虑一组由(图像,文本)对组成的集合,表示为

\left\{I_{j},t_{i}\right\}_{i=1}^{N}

。CLIP [1] 使用一个文本编码器

\mathcal{T}:\text{text{text}}\rightarrow\mathbb{R}^{d}

和一个图像编码器

\mathcal{I}:

image

\rightarrow\mathbb{R}^{d}

,它们将文本和图像转换成多模态空间中的嵌入向量,表示为

\mathbb{R}^{d}

Iii-B1 Training

CLIP在训练中使用了以下对比损失:

\mathcal{L}_{\text{CLIP}}\left(\{I_{i}\}_{i=1}^{N},\{t_{i}\}_{i=1}^{N}\right) =-\frac{1}{N}\sum_{i,j}y_{ij}\log\frac{\exp(\mathcal{T}(t_{j})^{T} \mathcal{I}(I_{i}))}{\sum_{k}\exp\left(\mathcal{T}(t_{k})^{T}\mathcal{I}(I_{i} )\right)} \tag{1}

其中

y_{i,j}=\begin{cases}1&I_{i}\text{ and }t_{j}\text{ 匹配}\\ 0&\text{其他情况}\end{cases} \tag{2}

Iii-B2 Inference

考虑到作者有图像集

\left\{I_{i}\right\}_{i=1}^{M}

和文本集

\left\{t_{j}\right\}_{j=1}^{N}

。在推理过程中,作者需要检查文本嵌入和图像嵌入之间的余弦相似性,以找到每个图像最可能的文本:

\hat{t}_{i}=\text{argmax}_{j}\quad\mathcal{T}(t_{j})^{T}\mathcal{I}(I_{i}) \quad,\forall i=1,2,\ldots,M \tag{3}

其中

\hat{t}_{i}

表示预测的与图像

I_{i}

最相关的文本。

Model

作者首先按照第三节A小节讨论的,对类别和理由的联合分布进行建模,然后作者讨论了考虑用于CLIP微调的不同提示调整方法,接着解释作者的训练和推理方案。

Iii-C1 Joint probability distribution of category and rationales

正如在第三节A小节中讨论的那样,作者的任务包括使用CLIP建模两个概率分布,

P(\left\{r_{i}\right\}_{i=1}^{m}|I)

P(c\left|\left\{r_{i}\right\}_{i=1}^{m},I\right.)

。在这里,作者引入了一种基于提示工程的方法。

为了建模给定图像的论证分布,作者设计了以下文本提示:

  • Prompt
{}_{R}\doteq

_照片中有

\left\{r_{1}\right\}

\left\{r_{2}\right\}

和... 和

\left\{r_{m}\right\}

_。

其中

R=\left\{r_{i}\right\}_{i=1}^{m}

表示图像

I

中的论证。以上文本提示以及考虑CLIP架构(第三节B小节),论证

\left\{r_{i}\right\}_{i=1}^{m}

的概率变为:

P(\left\{r_{i}\right\}_{i=1}^{m}|I)=\text{\emph{Softmax}}\left(\mathcal{T}( \text{Prompt}_{R})^{T}\mathcal{I}(I)\right) \tag{4}

其中 Softmax 是在数据集中所有可能的合理提示上计算的。

现在,关注

P(c\left|\left\{r_{i}\right\}_{i=1}^{m},I\right.)

,作者使用以下文本提示来建模这个条件分布:

作者认为这种条件表示方法是一种有效的方法,作者将在第四节D小节的消融研究中验证这一选择。因此,类别的条件分布变为:

P(c\left|\left\{r_{i}\right\}_{i=1}^{m},I\right.)=\text{\emph{ Softmax}}\left(\mathcal{T}(\text{Prompt}_{c\left|R\right.})^{T}\mathcal{I}(I)\right) \tag{5}

其中 Softmax 在数据集中的所有可能条件提示上取值,包括类别和论证的所有排列。这种全面的方法旨在以自回归的方式训练作者的模型,作者将在训练细节中讨论这一点。

Iii-C2 Prompt-Tuning

为了微调CLIP,作者探索了由[6, 15]引入的两种提示调整方法。浅提示[15]简单地将

K

个可学习的提示附加到视觉 Transformer (图像编码器)的输入:

e(I)\leftarrow\left(e(I),p_{0},p_{1},\ldots,p_{K}\right). \tag{6}

这里,

e(I)\in\mathbb{R}^{L\times d}

表示输入到视觉 Transformer 的图像,其中

L

表示图像标记的数量,

d

表示 Transformer 嵌入的维度。此外,

\left\{p_{k}\right\}_{k=1}^{K}\in\mathbb{R}^{d}

是附加到图像标记上的可学习提示。作者使用这种提示调整方法来处理像CIFAR-100这样的小数据集。

深提示[6]也将可学习的提示附加到中间的视觉 Transformer 层:

e^{l}(I) \leftarrow\left(e^{l}(I),p_{0}^{l},p_{1}^{l},\ldots,p_{K}^{l}\right) \tag{7}
e^{l+1}(I) \leftarrow\text{VT}^{l}\left(e^{l}(I)\right) \tag{8}

这里,

x^{l}

\left\{p_{k}^{l}\right\}_{k=1}^{K}

分别表示层

l

上的输入和可学习提示。

\text{VT}^{l}

表示层

l

上的视觉 Transformer 块。这种微调方法适用于像ImageNet这样的大型数据集。

这些提示调整方法增强了CLIP适应特定数据集的能力,并提高了性能。

Iii-C3 Training

让作者用

\mathcal{D}=\left\{I_{i},\left\{r_{j}^{(i)}\right\}_{j=1}^{m_{i}},c_{i} \right\}_{i=1}^{N}

表示作者的数据集,其中

R^{(i)}=\left\{r_{j}^{(i)}\right\}_{j=1}^{m_{i}}

c_{i}

分别代表图像

I_{i}

的解释和类别。

为了模拟逐步思维的过程,即首先预测解释,然后预测类别,作者以自回归的方式训练CLIP。在第一步中,作者为给定的图像预测解释。在第二步中,作者在预测的解释条件下预测类别。因此,训练损失由以下组成:

\mathcal{L}_{\text{train}} =\mathcal{L}_{\text{CLIP}}\left(\left\{I_{i}\right\}_{i=1}^{N}, \left\{\text{Prompt}_{R^{(i)}}\right\}_{i=1}^{N}\right) \tag{9}
+\mathcal{L}_{\text{CLIP}}\left(\left\{I_{i}\right\}_{i=1}^{N}, \left\{\text{Prompt}_{c^{(i)}\left|R^{(i)}\right.}\right\}_{i,j=1}^{N}\right) \tag{10}

其中

\mathcal{L}_{\text{CLIP}}

在第III-B小节中定义。第一项表示解释概率分布的交叉熵损失,即

\mathbb{E}_{\mathcal{D}}\left[-\log P(r|I)\right]

;第二项是给定解释条件下类别的条件分布的交叉熵损失,即

\mathbb{E}_{\mathcal{D}}\left[-\log(P(c|r,I)\right]

Iii-C4 Evaluation

对于一个给定的图像

I

,作者旨在预测其推理和类别,作者按如下方式确定使联合分布

P(c,r|I)

最大的推理和类别

c,r

c,r=\text{argmax}_{c,r}\,P(r|I)P(c|r,I) \tag{11}

每一幅图像都可以有多个推理,因此作者选择使联合分布最大的前

k_{I}

c

r

的组合,其中

k_{I}

是一个超参数,取决于图像

I^{\ast}

,因为每个图像在 GT 中的推理数量可能会有所不同。最后,作者在前

K_{I}

个部分中使用最大投票来预测类别。

IV Experiments

作者进行了广泛的实验,涵盖六个不同的数据集,以评估作者方法的有效性。这包括在单个数据集上的可解释图像分类中超越先前方法,并扩展到零样本设置。此外,作者还进行了一项消融研究,以分析不同模型组件的贡献。

Experiments Setup

实验设置部分的开始。

Iv-A1 Datasets

作者使用了由[15]准备的DROR数据集,该数据集是公开可用的。他们的数据集生成过程如下:

  1. 选择一个数据集的类别名称,例如CIFAR100 [52]。
  2. 使用提示向GPT3 [16]提问,_在照片中区分
\{

类别名称

\}

有哪些有用的视觉特征?_

  1. 收集GPT预测的属性,然后使用Google Image API搜索图像, Query 为
\{

类别名称

\}

which has

\{

属性名称

\}

他们对CIFAR-10 、CIFAR-100 、Caltech-101 、Food-101 、SUN 和ImageNet 数据集重复上述过程。更多细节可以在中找到。图3展示了通过此过程获得的一些示例数据。需要注意的是,在作者的第三节公式化中,每张图片有一个类别和一个理由,因此每张图片的理由数量是 one。

Iv-A2 Hyperparameter Setup

遵循中的方法,作者为小数据集采用浅层提示调整(如第三节C小节所述),以有效地微调CLIP,防止过拟合,并保持零样本性能。

对于像ImageNet这样的大型数据集,作者采用深层提示调整。

在所有数据集上,作者都使用CLIP-L/14模型,除了ImageNet,由于数据集较大,作者使用CLIP-B/32模型。此外,作者在单个Nvidia Tesla V100 GPU上进行训练。表1展示了作者的训练设置。最后,在评估中,作者考虑了前5个选择,如第三节C小节所述。

Iv-A3 Metrics

图2:在第一步(a)中,模型使用 Prompt

_{R}

来计算理由的分布。然后在第二阶段(b)中,它使用 Prompt

_{c|R}

标识基于理由的条件类别分布。值得注意的是,模型检测类别的能力受到识别出的理由的指导,为其选择提供了解释。

为了评估结果,作者需要考虑能告诉作者模型在可解释分类方面表现多好的指标。这些指标是由[15]引入的,同时还有数据集。有4个指标:

  • RR:正确的类别和正确的理由
  • RW:正确的类别和错误的理由
  • WR:错误的类别和正确的理由
  • WW:错误的类别和错误的理由

在理想情况下,RR指标应尽可能高,表示在类别和理由上都预测准确。相反,作者希望其他指标(RW、WR、WW)尽可能低,表明模型预测中的错误最小。这4个指标的总和必须是100%。

Baselines

为了基准测试作者的结果并展示作者模型的有效性,作者考虑了另外两个 Baseline :CLIP[1]和DORR[15]。

**CLIP (对比语言-图像预训练)**。在原始CLIP中,输入文本提示是“这是一张

\{

类别

\}

的照片”。因此,它在微调过程中不涉及理由。为了公平比较,作者使用了与第四节A小节讨论相同的实验设置。

**DDOR (双重正确目标识别)**。这项近期工作通过提示工程在可解释目标识别方面改进了原始CLIP。

Results

在六个不同数据集上的大量实验验证了作者所采用方法的优势。

Iv-C1 Single Dataset Performance

在表2中报告了各个数据集上的结果。作者的模型在五个数据集上均取得了最先进的表现。在CIFAR-10上,由于类别较为简单,自回归建模并没有显示出其有效性。这是一个重要的观察,即随着数据集变得更大、更丰富,作者基于逐步思考的方法变得更加有效。例如,在ImageNet上,作者观察到相比于DORR有144%的改进。

Iv-C2 Zero-Shot Performance

在零样本实验中,作者为作者的模型考虑了一个训练数据集以及一个独立的测试数据集用于零样本评估。为确保结果的可靠性,作者选择的训练数据集比测试数据集更为通用。结果展示在表3中。作者的模型在零样本设置中达到了最先进的表现。在所有设置中,作者的模型优于前两个 Baseline ,除了在CIFAR-10上,性能接近。

当测试数据集更具领域特定性时,例如只包含与食物相关图像的Food-101,作者模型的优越性变得更加明显。无论训练数据集如何,与DORR和CLIP相比,作者的方法在Food-101数据集上显示出显著更好的可解释性。这种能力可以增强视觉语言模型在专业领域中的可信度和泛化能力。

Iv-C3 Saliency maps

提供的显著性图(如图4所示),通过突出影响分类的重要图像区域,为模型的决策过程提供了洞察。通过这种可视化,可以看出作者的模型与基准模型相比生成了更准确的解释理由。此外,它还展示了一种专注于图像相关部分的能力,这有助于其在可解释目标识别方面取得卓越的性能。

Ablation Study

在本小节中,作者探讨了用于建模类别和理由的联合分布的文本提示的影响。

作者的消融研究显示,作者的模型代表了相较于之前 Baseline (包括CLIP和DDOR)的泛化能力。作者评估了六种不同的提示设计,以确定它们的有效性。

图3:在DORR ImageNet数据集[15]中生成理由及其对应图像的示例。中心词代表类别,而周围的词描述了相应的理由。此外,作者为每个类别和理由提供了一个通过谷歌搜索检索的示例图像。

Iii-A2 AB2 (Just Categories / CLIP)

在这个实验中,作者只在类别上进行训练,即提示"这是一张i?c的照片"。这与普通的CLIP相同。

Iii-A3 AB3 (Just Conditioning / DROR)

在本实验中,作者仅对条件提示或

\text{Prompt}_{c|R}

进行训练,即 _"This is a photo of a

\{c\}

because there is

\{r\}

"_。这种设置反映了DROR 的方法。

Iii-A4 AB4 (False Conditioning)

在本消融研究中,作者保持

\text{Prompt}_{R}

不变,但将

\text{Prompt}_{c|R}

设为 _"There is

\{r\}

because this is a photo of a

\{c\}

"_。在某种意义上,作者实际上颠倒了条件关系,这与作者假设的类别应该基于理由进行条件化的观点相矛盾。如表格IV所示,与ECOR相比,在小型数据集CIFAR-10、CIFAR-100、Food-101和Caltech-101上的性能略有下降。然而,对于大型数据集如SUN和ImageNet,差距是相当大的。这是因为小型数据集的类别较为简单,使得像CLIP这样的视觉语言模型即使有错误的条件也能更容易地识别它们。然而,错误的条件化导致在具有更复杂类别的大型数据集上性能较差。

Iii-A5 AB5 (Independence)

回忆一下第III-A小节,这种方法考虑了

P(c,\{r_{i}\}_{i=1}^{m}|I)=P(c|I)P(\{r_{i}\}_{i=1}^{m}|I)

。对于解释理由的分布,作者考虑

\text{Prompt}_{R}=

"照片中有

\{r_{1}\}

\{r_{2}\}

\dots

\{r_{m}\}

。", 而对于类别分布,作者考虑

\text{Prompt}_{c}=

"这是一张

\{c\}

的照片。". 这

图4:显著性图的视觉化。图像样本来自DROR数据集。在列2、4、7和9中,作者展示了模型为解释预测产生的解释理由。在列3、5、8和10中,作者展示了模型用于产生预测和解释理由的显著性图。

作者的方法通过关注图像的适当部分产生了正确的类别和解释理由。此外,作者的模型对于被与正确解释理由相似但错误的物体欺骗的抵抗力更强。这在海洋示例(第4行,第1列)中很清楚,因为作者的模型正确检测到了波浪,而 Baseline 模型关注的是云朵。

表2:在六个数据集上解释性目标识别性能的比较。这些实验的设置在第IV-A小节中讨论。作者的模型以相当大的优势超过了其他 Baseline 。随着数据集变得更大,作者使用的自回归建模的效果变得更加明显。这种方法被忽略是因为CLIP将解释理由视为新类别,而不是用于类别预测的提示或解释。然而,表4的结果显示,对于像CIFAR-10、CIFAR-100、Food-101和Caltech-101这样的小数据集,性能相对于ECOR有所提高,原因有两个。首先,由于将解释理由和类别提示分开,CLIP不必被迫使用解释理由进行类别预测。其次,对于这些小数据集,类别和解释理由的数量是有限的,因此在同时预测类别和解释理由时性能良好。

然而,对于像SUN和ImageNet这样的大型数据集,结果显著下降,尤其是对于ImageNet。在这里,解释理由的数量太多,无法独立预测类别和解释理由。相比之下,ECOR通过使用解释理由作为类别预测的提示,简化了CLIP的情况,从而提高了可解释性、可靠性和性能。

Iv-B6 Ab6 (Inverse ECOR)

在这次最后的消融研究中,作者探讨了首先预测类别然后再预测理由的场景。因此,作者考虑

P(c,\{r_{i}\}_{i=1}^{m}|I)=

表3:在六个数据集上解释性目标识别零样本性能的比较。当测试数据集缩小到更具体的领域,如Food-101时,作者的模型在零样本可迁移性上的优势变得越来越明显。

P(c|I)P(\{r_{i}\}_{i=1}^{m}|c,l)

。作者排除了这种方法,因为作者是将理由作为类别的提示,而不是相反。同时,正如表4所示,与ECOR相比,所有数据集上的性能都有所下降(除了CIFAR-10,那里的性能接近)。当数据集变得更大,类别更复杂时,差距会增加。

V Conclusion

总之,作者的论文提出了一种新颖的方法,用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性。通过引入一个基于类别和理由的联合概率分布的可解释性的统一数学定义,作者为作者的方法奠定了基础。

作者开发了一个基于提示的模型,在第一步预测理由,并在第二步利用它们进行类别预测。通过在包括零样本场景在内的各种数据集上的大量实验,作者的方法在可解释分类方面取得了最先进的表现。尽管作者的模型具有可解释性,但它仍保持了高准确度,解决了在提供有意义理由的同时平衡预测准确度的挑战。作者的工作通过为目标识别提供透明和可解释的解释,有助于提高在关键领域的信任度和责任性。未来的研究可以探索将作者的方法扩展到其他类别的VLMs,如生成模型,并研究其在其他领域的适用性。

参考

[1].ECOR: Explainable CLIP for Object Recognition.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Related Work
    • Ii-A1 Vision Language Models
      • Ii-A2 Explainability
        • Ii-A3 Visual Attributes & Visual Reasoning
          • Ii-A4 Prompt-Tuning
          • III Method
            • Problem Formulation
              • CLIP Overview
                • Iii-B1 Training
                  • Iii-B2 Inference
                    • Model
                    • Iii-C1 Joint probability distribution of category and rationales
                      • Iii-C2 Prompt-Tuning
                        • Iii-C3 Training
                          • Iii-C4 Evaluation
                          • IV Experiments
                            • Experiments Setup
                              • Iv-A1 Datasets
                                • Iv-A2 Hyperparameter Setup
                                  • Iv-A3 Metrics
                                    • Baselines
                                      • Results
                                        • Iv-C1 Single Dataset Performance
                                          • Iv-C2 Zero-Shot Performance
                                            • Iv-C3 Saliency maps
                                              • Ablation Study
                                                • Iii-A2 AB2 (Just Categories / CLIP)
                                                  • Iii-A3 AB3 (Just Conditioning / DROR)
                                                    • Iii-A4 AB4 (False Conditioning)
                                                      • Iii-A5 AB5 (Independence)
                                                        • Iv-B6 Ab6 (Inverse ECOR)
                                                        • V Conclusion
                                                        • 参考
                                                        相关产品与服务
                                                        腾讯云小微
                                                        腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
                                                        领券
                                                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档