前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >清华大学提出CapS-Adapter | 利用CLIP的单模态和跨模态优势,通过使用多模态支持集提高了预测准确性!

清华大学提出CapS-Adapter | 利用CLIP的单模态和跨模态优势,通过使用多模态支持集提高了预测准确性!

作者头像
AIGC 先锋科技
发布2024-07-08 13:31:39
800
发布2024-07-08 13:31:39
举报
文章被收录于专栏:AIGC 先锋科技

视觉语言基础模型的最新进展,如CLIP,已经在零样本分类方面取得了显著进展。然而,像CLIP这样的模型的广泛参数化需要一种资源密集型的微调过程。对此,TIP-Adapter和SuS-X引入了无需训练的方法,旨在提高下游任务的有效性。 尽管这些方法包含了支持集,以保持知识缓存和测试集之间的数据分布一致性,但它们在测试集上的泛化能力往往不足,尤其是在面对具有显著分布变化的测试数据时。 在这项工作中,作者提出了CapS-Adapter,这是一种创新的方法,它采用基于标题的支持集,有效地结合了图像和标题特征,在无需训练的场景中超越现有的最先进技术。 CapS-Adapter巧妙地构建了与目标分布密切相似的支持集,利用从多模态大型模型中提取的实例级分布特征。 通过利用CLIP的单模态和跨模态优势,CapS-Adapter通过使用多模态支持集提高了预测准确性。作者的方法在19个基准数据集上取得了卓越的零样本分类结果,比先前的领先方法提高了2.19%的准确率。 作者的贡献通过在多个基准数据集上的广泛验证得到了证实,展示了卓越的性能和强大的泛化能力。 作者的代码: https://github.com/WLuLi/CapS-Adapter

1. INTRODUCTION

视觉-语言基础模型(VLMs)[17, 21, 29]的最新进展在各个计算机视觉任务上取得了显著的进步。这些模型展现出了强大的零样本能力,这是由于它们在大规模图像-文本配对数据集上进行了预训练,其中一个突出的例子是CLIP。当将VLMs应用于下游任务时,如果下游数据集的数据分布与VLMs预训练时使用的图像分布存在显著差异,其零样本性能会大幅度下降[10]。

因此,一些旨在适应VLMs以应对各种下游任务的研究在之前的工作中已经提出。这些方法主要分为四类:手动提示调整、提示学习方法[41, 42]、特征调整方法[24, 39]或训练免费方法[33, 40]。其中,手动提示需要人工知识和努力来创建,其有效性通常有限[42]。另一方面,尽管提示学习和特征调整方法通过在目标任务数据的一个子集上进行微调来适应,但其高度参数化的特性使得这些方法容易不稳定并具有过拟合的固有倾向[7, 12]。为了解决这个问题,引入了训练免费方法并证明其有效。它们为下游任务引入了一个知识缓存,由一组图像组成。这个集合被SuS-X[33]称为“支持集”。然而,由于SuS-X中支持集之间的高度相似性和实例级信息的缺乏,构建的支持集偏离了目标分布。这种偏差导致随着支持集中图像数量的增加,方法的性能下降。因此,探索更有效和通用的构建支持集的方法被认为是至关重要的。此外,之前的训练免费方法通常只利用支持集中的图像特征,这导致它们专注于支持集内不同模态之间的相关性。

为了解决这些问题,本文提出了_CapS-Adapter_方法,该方法以无需训练的方式调整视觉-语言模型以适应下游分类任务。具体来说,_CapS-Adapter_方法分为两部分。

(1) 第一个组成部分是_CapS_(基于标题的支持集),这是一个与目标分布紧密对齐的多模态支持集,以及其构建的高效方法。该系统利用多模态大型语言模型为从目标分布训练集中抽取的小部分图像生成标题。这些标题包含实例级的语义信息。随后,将这些图像标题与类别文本混合,创建基于标题的提示。这些提示然后输入到大规模文本到图像生成模型(例如,Stable Diffusion)中,生成与目标分布相匹配的多样化支持图像集。这些图像与目标分布测试集之间的CLIP相似性平均比 Baseline 方法提高了1.5%。这些图像的特征和基于标题的提示共同构成了这个基于标题的多模态支持集,为零样本分类提供了一个知识缓存。

(2) 在构建的_CapS_基础上,作者提出了_M-Adapter_(多模态- Adapter ),这是一种利用_CapS_调整视觉语言模型以适应下游任务的方法。它利用了_CapS_中的图像特征和基于标题的提示。通过计算关联矩阵,它巧妙地平衡了下游预测中文本-图像跨模态相似性和图像-图像同模态相似性。_M-Adapter_有效地利用了支持集中的多模态特征,甚至在支持集中的相同图像上,其性能也优于现有技术水平的方法SuS-X,提高了1.22%。如图1所示,_CapS-Adapter_在19个基准数据集上提升了分类性能,平均准确率分别提高了5.28%,2.28%和2.19%。

本文的贡献如下:

  • 作者提出了一种新颖的支持集_CapS_及其构建方法,创新地将文本信息融入到支持集中。通过有效地利用图像标题中的实例级信息,它生成了更通用的下游表示。它解决了之前支持集中图像数量增加时性能下降的问题。
  • 对于_CapS_架构,作者引入了_M-Adapter_,这是一种在分类过程中最优利用缓存多模态特征的推理方法。这种方法无需训练。
  • 作者的_CapS-Adapter_方法,结合了_CapS_和_M-Adapter_,在无需训练的情况下在19个数据集上超过了先前方法,性能提高了2.19%。

2. Related Work

计算机视觉领域在过去几十年里取得了显著的进展,特别是在目标检测和识别领域。这一进步主要归功于深度学习技术的发展,这些技术改变了各种视觉任务的模型训练和部署方式。

在本节中,作者将回顾在目标检测和识别领域一些最具影响力的工作,强调该领域的演变,并为作者的方法设置背景。

Vision-Language Models (VLMs)

视觉语言模型在一系列视觉任务上展现出强大的性能,并具有强大的泛化能力,例如CLIP(Wang等人,2019年),这是一种通过对比学习在大量文本-图像对上训练的模型。

这种方法此后激发了众多采用类似训练方法的视觉语言模型。通过对比学习,预训练的CLIP模型获得了在共享特征空间中表示图像和文本的能力。这些来自CLIP的图像-文本表示可以用于下游任务,如语义分割和目标检测。值得注意的是,CLIP通过使用“一张CLASS的照片”形式的类提示,展示了在这些任务中处理零样本分类的能力。

VLMs' Adaptation

受到CLIP零样本能力的启发,后续工作旨在提高其性能。CLIP在处理下游任务中的零样本分类能力受到这些任务数据分布的影响。针对这一问题,许多研究者提出了下游任务适应方法,通过提示学习或免训练方法增强CLIP在特定下游任务分布上的能力。

2.2.1. Prompt Learning

语境优化(CoOp)方法(Zhu等人,2017年)通过将类别提示中的上下文词转换为一系列可学习向量,将NLP领域的提示学习趋势引入到视觉领域,使用少量标记图像就能实现显著的性能提升,超过了精心调整的手动类别提示。

然而,CoOp在训练过程中观察到的类别上存在过拟合问题,并且其在同一数据集中未见类别的泛化能力有限。为了解决这个问题,提出了条件语境优化(CoCoOp)方法(Zhu等人,2017年),通过学习一个轻量级神经网络为每张图像生成一个输入条件 Token (向量),扩展了CoOp。与CoOp中使用的静态提示相比,CoCoOp的动态提示适应每个实例,降低了对类别变化的敏感性。实验结果表明,CoCoOp在泛化到未见类别方面的表现优于CoOp,甚至在不同的数据集之间也显示出有希望的迁移性,同时提供了更强的领域泛化性能。但在像CoOoOp这样的增强提示学习方法中,过拟合问题仍然存在。

2.2.2. Training-free Methods

一些不需要学习的方法利用少样本方法,在训练集中使用少量样本作为可供推理过程中参考的知识缓存。这些方法将样本的图像特征融入到计算逻辑值的推理过程中,从而增强了CLIP的零样本能力。

SuS-X(Zhu等人,2017年)采用了一种“仅名称转移”的方法,利用大型语言模型理解的类别名称和类别概念。该方法通过GPT-3(Brown等人,2019年)生成一系列提示,并通过StableDiffusion(Wang等人,2017年)生成和LAION-5B(Wang等人,2017年)检索构建支持集,取得了最先进的表现。

然而,这种方法受到大型语言模型知识的限制。大型语言模型生成的提示通常关注于常识性文本,很少考虑到不常见、小众领域。此外,这些提示缺乏实例级语义信息,导致这种方法生成的支持集与许多数据集中的目标数据集图像在数据分布上存在很大差异。这导致支持集图像中包含的信息高度相似和冗余。

Multimodal Large Language Models

多层感知器(MLP) Adapter 将被编码的图像特征投影到大型语言模型(LLM)的输入特征空间中,以及类似的方法,已经导致了众多具有强大图像理解和语言能力的多模态大型语言模型(MLLMs)的出现(Liang et al., 2017; Wang et al., 2017; Wang et al., 2017; Wang et al., 2017)。多模态大型语言模型(MLLMs)的最新进展展示了它们在为图像生成详细且上下文相关的标题方面的强大能力。在这一领域中的一个显著贡献是ShareCaptioner(Liang et al., 2017),这是一个开源模型,通过在包含丰富细节的图像-标题对数据集上进行微调,在GPT4-Vision(Brockman et al., 2017)的帮助下,能够生成准确且详尽的标题。

3. Method

作者的方法的整体流程如2所示。为了克服先前无训练方法中构建的支持集与目标分布之间的差距,作者设计了一个名为_CapS_的多模态支持集及其构建方法,如图2(a)所示。

作者基于图像标题构建_CapS_。在_CapS_之上,作者设计了一种用于预测的推理方法。该方法使用了_CapS_中图像和文本模态的特征,名为_M-Adapter_。它解决了仅使用支持集的图像特征时,未能充分利用视觉语言模型(VLMs)的跨模态能力的问题。

CapS: Caption-based Multimodal Support Set

最新的无需训练的适应方法使用一组图像为CLIP提供下游任务的视觉知识。这组图像被称为“支持集”。作者利用图像标题来开发多模态支持集“CapS”。作者的方法考虑了标题中的实例级特征,因此生成的支持集中的图像与目标分布更加一致。作者创新地将基于标题的提示,其中包含文本特征,融入到支持集中。"CapS"围绕两个关键组成部分构建:基于标题的提示和生成的图像。

3.1.1. Generate Caption-based Prompts

作者利用多模态大型语言模型来获取图像标题。作者将图像标题与类别文本提示 ConCat 起来,以获得基于标题的提示。具体来说:

对于包含 个类别的下游任务数据集,作者的目标是创建一个多模态支持集,作为针对下游任务的缓存,融入 个类别的实例级知识。对于训练集中的每个类别,作者提取 张图像,记作 ,并将这些图像输入到一个名为 ShareCaptioner (Chen et al., 2017) 的多模态大型语言模型中,以获取这些图像的标题,对于第 张图像 ,其标题 为

对于所有的 NK 样本,它们的标题表示为 。 表示多模态大型语言模型。利用多模态大型语言模型对图像的解释和总结能力, 以文本形式包含了下游任务数据分布的信息。

对于 个类别中的每个类别,作者使用的类别文本提示是一个非常简单的句子“一张 -classnames 的照片。”对于特定的数据集 Country211,提示是另一个简单的类别提示,“在 _-classname_。” 个类别的类别文本提示表示为 ,它包含了关于下游任务的类别信息。通过将 和 中的提示 ConCat 起来,作者获得了基于标题的提示(_CBP_),对于第 类中的第 张图像表示为

ConCat 的 包含了从图像标题获得的实例级信息以及来自类别文本提示的类别信息。它将被用于生成支持集中的图像部分。

3.1.2. Image Generation

作者使用了文本到图像模型——稳定扩散(_Stable Diffusion_)来实现图像生成。对于第k类,作者随机抽取其基于描述的提示(_caption-based prompt_) 作为稳定扩散(_Stable Diffusion_)的输入,生成一系列张图像。由于这个提示是从中随机选择的,当时会出现提示重复的情况。为了避免当时中的重复,作者在为相同的基于描述的提示生成稳定扩散图像时使用不同的随机种子。

3.1.3. Multimodal Support Set

随后,作者构建了一个多模态支持集,称为_CapS_。对于个类别,_CapS_涉及将基于标题的提示集合与生成的图像相结合。当作者需要访问_CapS_中的缓存知识时,有必要对_CapS_中的图像和文本进行编码:

对于中的每张图像,作者使用预训练的CLIP视觉编码器提取其图像特征。同样,对于中的每个基于标题的提示,作者使用CLIP文本编码器提取其文本特征。图像和文本特征都具有维度。对于所有图像,编码的视觉特征表示为,

同样,对于所有个基于标题的提示,编码的文本特征表示为

M-Adapter: Inference Approach

基于先前构建的_CapS_,作者提出了一种无需训练的推理方法,即_M-Adapter_,以增强零样本CLIP在下游任务中的预测能力。在本节中,作者将介绍零样本CLIP的分类推理方法,这作为一系列改进努力的基础,以及作者的_M-Adapter_。

3.2.1. Zero-shot CLIP

对于包含个类别的分类任务,零样本CLIP的预测过程最初涉及将类别标签转换为文本提示,这些提示通常是手工制作的。用于零样本CLIP预测最基本的文本提示是“_类名_的照片。”的_类文本提示_。随后,这些文本提示和待分类的图像使用预训练的编码器编码到CLIP的特征空间中的特征中。《M-Adapter》如图**2(c)**所示。

待测试的单个图像的特征表示为,其中表示特征的维度。类似地,对于一批个测试图像,它们特征表示为。文本特征向量聚合到一个CLIP分类器中,是类别数量。

计算和的点积以获得与每个类的提示特征之间的相似性逻辑值,

然后使用这些逻辑值来生成零样本CLIP的预测结果,对于每个测试图像,在逻辑值向量中取最大值的标签。

3.2.2. M-Adapter

M-Adapter 是一种基于SuS-X中的TIP-X(Shi等人,2019)改进的推理方法。2(c)展示了_M-Adapter_的工作流程。TIP-X通过结合图像标签缓存、矩阵向量乘法和KL散度来适应CLIP进行零样本任务。具体来说,它通过引入两个附加项和来增强零样本框架:

表示特征向量。 表示从标签转换而来的独热向量矩阵。 和 分别是由TIP-Adapter和SuS-X引入的关联和亲密矩阵。

矩阵 计算测试图像(视为 Query )与图像标签对的预计算特征向量之间的关联:

是一个可调整的超参数,它调节“锐度”,使 对 和 的变化更加敏感。 在 中是与零样本预测混合时的残差比例。

利用零样本CLIP文本分类器作为跨模态桥梁,表示 和 在同一模态内的亲和力,通过两个签名 和 之间的KL散度计算:

对于 个测试图像中的 和支持集中的 个图像中的 。

在构建矩阵 之前,需要计算两个签名 和 ,分别表示文本分类器权重 与 , 与 之间的相似性:

计算 后,自动缩放函数 调整 以使其值范围与 对齐。 在 中是与其他项混合时的残差比例。

针对CLIP的模内相似度分数方差大的问题,TIP-X使用零样本CLIP文本分类器作为中介桥梁。基于TIP-X,_M-Adapter_ 通过结合支持集的特征缓存中的图像特征和标题特征(文本特征)来修改支持集特征缓存的方法。这是通过计算 与缓存特征之间的加权混合相似性来实现的,从而得到新的关联矩阵 (M代表多模态):

是新引入的超参数,用于调整 中文本-图像跨模态相似度与图像-图像模态相似度之间的平衡, 值越大,表示对支持集存储的文本特征与测试图像之间的相似性越重视。

作者仍然使用 和 作为混合logits中项的超参数,_M-Adapter_ 表示为

其中 由方程11定义。

4. Experiments

Experimental Settings

作者在19个广泛使用的图像分类数据集上评估了_Caps-Adapter_与 Baseline 的比较结果,针对的是视觉语言模型

作者与三种零训练方法进行了比较:零样本CLIP (Cifar等人,2019), CuPL (Cifar等人,2019), 和SuS-X (Liu等人,2018)。对于零样本CLIP,作者使用了七种提示模板 (Cifar等人,2019; Li等人,2019) 来生成文本分类器。作者使用它们的官方代码运行了CuPL和SuS-X。此外,对于CuPL,作者还执行了其混合变体CuPL+,按照SuS-X中的实现,将其与在七种零样本CLIP场景中使用的七种提示模板相结合。根据获取支持集的方法,SuS-X有两种实现方式:检索方法SuS-X-LC和生成方法。

这两种方法的能力非常相似。每种实现方法还可以根据 Query 或生成图像时使用的提示模式分为CuPL模式(GPT3生成)和Photo模式(手动构建)。由于作者的方法使用Stable Diffusion生成图像以构建支持集,作者在报告中考虑了SuS-X的两种结果:SuS-X-SD-Photo和SuS-X-SD-CuPL。在SuS-X推理过程中,文本分类器的提示模式,作者主要使用了组合模式,这在大多数数据集上表现更好。然而,对于ImageNet和ImageNet-Sketch,作者使用了集合模式,这种模式在这两个数据集上表现更好。为了与SuS-X进行严格比较,CapS推理过程中的文本分类器的提示模式与SuS-X保持一致。和的超参数搜索步骤和规模与SuS-X一致。的搜索步骤为11,步长规模为0.1()。

先前的免学习适应方法主要使用ResNet-50 (He等人,2016)作为CLIP的图像编码器。作者认为只考虑一个CLIP Backbone 网络不足以完全反映适应方法的性能。因此,作者使用了五个CLIP Backbone 网络作为编码器进行了实验:ResNet-50, ResNet-101, ViT-B/32, ViT-B/16, 和ViT-L/14 (He等人,2016)。作者在正文报告中提供了这五个 Backbone 网络在每个数据集上的平均结果,并在补充材料中提供了每个 Backbone 网络的完整结果。

Main Result

作者的实验和分析覆盖了所有19个数据集,如表1所示,证明了_Caps-Adapter_显著优于其他免训练方法。在所有19个数据集中,_Caps-Adapter_方法平均比零样本CLIP提高了5.28%,同时分别比SuS-X-SD-CuPL和SuS-X-SD-Photo平均提高了2.28%和2.19%。

具体来说,在列出的六种免训练方法中,_Caps-Adapter_在14个数据集中获得了最高准确度,在3个数据集中获得了第二高的准确度。此外,作者发现_Caps-Adapter_在几个细粒度分类数据集上表现卓越。与零样本CLIP相比,在EuroSAT、DTD、UCF101、FGVCircraft和Birdsnap数据集上的提升分别为21.94%、17.76%、11.63%、9.39%和8.56%,与SuS-X-SD-Photo相比的提升分别为9.36%、9.21%、7.73%、5.88%和2.67%,与SuS-X-SD-CuPL相比的提升分别为11.49%、9.21%、8.14%、5.67%和2.23%。

表1所示,_Caps-Adapter_在涉及细粒度分类和不常见类别分类的数据集上显著提高了性能,例如Birdsnap(鸟类)、EuroSAT(卫星图像)、DTD(纹理)、UCF101(动作)、FGVCircraft和Food101,与 Baseline 方法SuS-X相比。作者主要将这些显著的改进归因于数据集对支持集中图像特征质量的提高敏感度。_Caps_中图像特征的优越质量主要是因为这些数据集中的图像类别在像Stable Diffusion这样的文本到图像生成模型的预训练中没有被广泛表示,这些模型缺乏关于这些类别的足够先验知识。因此,支持集图像的生成在很大程度上依赖于输入提示。_Caps_利用基于标题的提示,与SuS-X使用的更简单的GPT-3生成或手动提示相比,这些提示提供了分布更均匀、更丰富和更多样化的实例级信息,从而更好地指导支持集图像的生成过程。在19个数据集上的广泛改进归功于_M-Adapter_在_Caps_中对标题文本特征的有效利用,与仅在推理时使用支持集图像特征的SuS-X形成对比。

作者在消融研究中进一步分析了_Caps_和_M-Adapter_的效果。

5. Ablation Study

Caps-Adapter由两个模块组成:支持集模块CapS和推理模块M-Adapter。为了分析这两个组件的效果,作者进行了消融研究。这些研究包括在19个数据集上使用CapS的图像部分和 Baseline 方法SuS-X的推理模块TIP-X进行的实验。实验结果展示在表2中。这些结果与Caps+M-Adapter(Caps-Adapter)、SuS-X-SD-Photo(SuS-SD-CuPL+TIP-X)和SuS-X-SD-CuPL(SuS-SD-Photo+TIP-X)的结果进行了比较。鉴于M-Adapter与Caps之间的高度集成(M-Adapter依赖于CapS中的多模态知识缓存),以及SuS-SD中没有文本特征知识缓存,作者没有在SuS-SD上使用M-Adapter进行实验。

Effects of Caption-based Multimodal Support Set (Caps)

效果基于标题的多模态支持集(_Caps_)部分的开始。

5.1.1. Data Distribution Analysis

_CapS_旨在解决先前方法从目标数据分布构建的支持集中图像分布偏差的问题。本节将重点关注这一点,比较_CapS_方法和SuS-X-SD方法构建的支持集的数据分布。

图3展示了对应于目标测试集分布的两个数据类别的随机抽样图像示例,SuS-SD生成的支持集图像,以及_CapS_的支持集图像,具体为Food101数据集中的Apple Pie和BirdSnap中的Arctic Tern。两种SuS-SD生成模式的图片表现出一定的重复性,并且偏离了目标分布。例如,它们在图3(a)中对Apple Pie类别的样本主要展示了苹果派的圆形形状,在图3(b)中对Arctic Tern类别的样本仅展示了北极燕鸥的静态图像。相比之下,在_CapS_中,由于基于标题提示引入的实例级特征,图像分布更接近目标分布,图3中的样本展示了各种苹果派的形状以及北极燕鸥的动态和静态图像。

作者从FGCVAircraft数据集中对应于A318类的目标测试集分布、SuS-SD生成的支持集图像分布以及_CapS_图像部分的支持集图像分布中各随机抽样了50张图像。同样,作者从OxfordPets数据集中的Chihuahua类别这些数据分布中各抽样了100张图像。这些图像使用预训练的CLIP视觉编码器进行编码,然后使用t-SNE(Maaten和Hinton, 2008)进行降维以可视化。在图4中,可视化的特征显示SuS-SD-Photo和SuS-SD-CuPL的图像特征更集中且远离目标分布的特征,反映出它们支持集中的图像相对同质且偏离目标分布。另一方面,_CapS_的图像特征更接近目标分布特征同时更为分散,反映出它们显著地更接近目标分布且多样性更大。

为了评估支持集的图像分布是否与目标数据分布紧密相似,作者采用了计算支持集中图像与目标数据集测试集之间的平均CLIP相似度的方法。这个度量标准为所有19个数据集构建的支持集进行了计算,Birdsnap、Food101、OxfordPets、UCF101以及19个数据集的平均结果在表3中展示(每个19个数据集的详细结果在附录材料中)。发现_CapS_中的图像与数据集测试集之间的平均CLIP相似度比SuS-SD-CuPL和SuS-SD-Photo分别高出1.5%和2.71%。

5.1.2. Performance Analysis

表2的1-3行可以看出,使用_CapS_的图像部分提高了 Baseline 方法在大多数数据集上的性能,平均准确率分别提高了0.97%和1.06%。这表明CapS生成支持集图像的方法确实产生了具有更有利数据分布的图像集合,为零样本分类提供了更有效的知识缓存。

SuS-X的研究行人认为,当真实数据分布与支持集样本的分布非常相似时,提供更多的支持集样本总是有益的(Shi等人,2018年)。然而,当两者之间存在显著差异时,增加支持集中的图像样本数量可能会适得其反。可以推理,支持集的有效性通过随着支持集图像样本数量的变化,方法性能的变化来体现。为此,作者选择了支持集图像数量为5、10、25、50、75和100的场景,并在图5中可视化了在FGVC Aircraft和SUN397数据集上,四种方法——_CapS-Adapter_、_CapS_ + TIP-X、SuS-X-SD-Photo和SuS-X-SD-CuPL——在这些数量上的分类准确性的变化。

图5的1-3行图像中可以观察到,当使用SuS-SD作为支持集时,在FGVC Aircraft和SUN397上,随着支持集图像数量的增加,TIP-X的性能趋于下降。相比之下,用_CapS_的图像部分替换SuS-SD扭转了这一趋势,随着图像数量的增加,性能得到提升。这表明_CapS_的图像部分与真实数据分布更接近,有效地提高了方法性能。

Effects of Multimodal Adapter (M-Adapter)

M-AdapterCapS-Adapter 中发挥着关键作用,在推理过程中同时考虑了来自 CapS 的文本和图像特征。正如 表2 的第3行和第4行所示,当使用 CapS 时,在推理时加入 M-Adapter 在19个数据集中的18个上超过了 Baseline 方法 TIP-X(Shi et al., 2018),平均提高了1.22%。这表明,与仅利用支持集中的图像特征的 TIP-X 相比,M-Adapter 的多模态推理方法更有效地利用了支持集中存储的知识缓存。图5 中第4行相对于第3行的显著改进也证实了这一点。

6. Conclusion

本文介绍了_CapS-Adapter_,这是一种在视觉-语言模型适应领域的开创性免训练方法,成功地解决了现有免训练方法的局限性。通过利用独特的基于标题的支持集,_CapS-Adapter_有效地利用了图像和文本特征,紧密接近目标分布,并在零样本分类任务中展示了优于先前最先进方法的卓越性能。这一成就突显了整合多模态支持集以实现健壮泛化能力的潜力,强调了实例级分布特征和多模态数据处理在提高预测结果方面的有效性。

参考

[1].CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. INTRODUCTION
  • 2. Related Work
  • Vision-Language Models (VLMs)
  • VLMs' Adaptation
  • 2.2.1. Prompt Learning
  • 2.2.2. Training-free Methods
  • Multimodal Large Language Models
  • 3. Method
  • CapS: Caption-based Multimodal Support Set
  • 3.1.1. Generate Caption-based Prompts
  • 3.1.2. Image Generation
  • 3.1.3. Multimodal Support Set
  • M-Adapter: Inference Approach
  • 3.2.1. Zero-shot CLIP
  • 3.2.2. M-Adapter
  • 4. Experiments
  • Experimental Settings
  • Main Result
  • 5. Ablation Study
  • Effects of Caption-based Multimodal Support Set (Caps)
  • 5.1.1. Data Distribution Analysis
  • 5.1.2. Performance Analysis
  • Effects of Multimodal Adapter (M-Adapter)
  • 6. Conclusion
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档