前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >南大 & 上海 Ai Lab AWT 框架 | 革新视觉-语言模型的零样本与少样本学习能力,提升语义相关性挖掘 !

南大 & 上海 Ai Lab AWT 框架 | 革新视觉-语言模型的零样本与少样本学习能力,提升语义相关性挖掘 !

作者头像
AIGC 先锋科技
发布2024-07-20 10:18:40
520
发布2024-07-20 10:18:40
举报
文章被收录于专栏:AIGC 先锋科技

预训练的视觉-语言模型(VLMs)在各类视觉分类任务中表现出色。然而,在适应新概念理解时,由于新类别的信息有限,作者往往无法充分发挥它们的潜力。为了克服这一限制,作者引入了一种新颖的适应框架AWT(增强、加权、然后传输)。AWT包括三个关键组成部分:通过图像转换和语言模型,用多样化的视觉角度和丰富的类别描述来增强输入;基于预测熵动态加权输入; 并采用最优传输在视觉-语言空间挖掘语义相关性。AWT可以无缝集成到各种VLMs中,无需额外训练就能增强它们的零样本学习能力,并通过集成的多模态 Adapter 模块促进少样本学习。作者在多个具有挑战性的场景中验证了 AWT,包括零样本和少样本图像分类、零样本视频动作识别以及分布外泛化。AWT 在这些设置中一致优于现有最佳方法。 此外,作者广泛的研究进一步证明了AWT在不同VLMs、架构和规模上的有效性和适应性。

1 Introduction

近期在视觉语言模型(VLMs)方面取得了进展,这些模型经过大规模的网络图像文本对预训练,已经在各种分类任务中表现出显著的成功。VLMs被训练以将图像与相关的文本描述相联系。在标准协议(图1(a))中,原始图像和类别名称被投射到一个联合视觉语言嵌入空间中,选择距离图像表示最近的类别作为预测结果。

然而,直接在测试中使用原始图像和类别名称存在局限性[1; 7]。从视觉上讲,广泛的预训练范围迫使VLMs分析所有图像元素,缺乏关注特定感兴趣区域的能力。例如,模型可能会忽略猫的关键面部特征,而不必要地关注像“长凳”和“草地”这样的无关元素(图1(a))。从文本上讲,由于VLM预训练将视觉元素与多样且丰富的文本描述(例如,颜色和纹理)相联系,仅在使用类别名称进行测试时未能捕捉到视觉内容的全部范围。为了提高输入的有效性,文献关注于后训练提示(图1(b))提供上下文线索,从而帮助模型优先考虑相关特征,例如猫的属性。然而,这种方法通常依赖于训练资源的可用性,这并不总是实际可行。

在这项研究中,作者关注于在不使用训练提示的情况下,提高输入以更好地适应VLMs。作者提倡使用数据增强作为一种简单而有效的策略,如图1(c)所示。

像随机调整大小裁剪和图像翻转这样的技术丰富了具有多样性和多尺度视角的输入,而每个类别的详细文本描述提供了更丰富的视觉叙述。尽管为每个类别手动制作不同的描述成本高昂,但使用大型语言模型(LLMs)[31, 32, 33]提供了一种有效的替代方法。

尽管如此,仍存在几个挑战。首先,需要评估每个增强图像和描述的跨模态重要性,因为不是所有的视角对类别识别的贡献都是相等的——有些可能是无关的背景元素或非视觉描述符,如猫的性格。第二,需要考虑模态间的交互,因为像“深色脸”或“浅色身体”这样的描述可能与某些图像裁剪有直接的语义相关性(图1(c))。

为了应对这些挑战,作者提出了AWT,一个新颖的框架,该框架将原始输入增强为多样视角,动态地权重每个模态中的视角重要性,并在模态间传输语义相关性。最初,AWT通过图像变换和LLMs增强原始输入。随后,它根据其预测熵动态地权重每个视角的重要性,因为更自信的预测通常指示更高的准确性[34]。这种方法允许AWT识别并优先考虑重要的视角,并根据特定于任务的上下文动态调整重要性分布(例如,候选类别名称)。AWT然后将图像文本距离计算制定为一个最优传输问题[35, 36],将每个增强视角视为一堆沙子。为每个视角评估的重要性决定了其相应沙堆的质量,并使用余弦相似性计算距离。这种制定可以通过解决最优传输问题有效地发现跨模态相关性——这最小化了将沙子从一种模态传输到另一种模态所需的努力。此外,使用像“描述一个{类别}。”这样的简单提示从LLMs生成类别描述通常会导致过于通用的描述。受到思维链方法的启发[37],作者引入了一种两步、数据集感知的提示方法。这种方法鼓励LLMs产生既多样又与数据集相关的类别描述。

作者使用CLIP模型[1]实现AWT,并在涵盖四个具有挑战性任务(零样本和少样本图像分类、分布外泛化、零样本视频动作识别)的21个数据集上评估了其性能。如图1(d)所示,AWT在每个设置中一致地超越了现有的最先进方法。作者进一步广泛分析了AWT与不同架构的灵活性,与不同模型规模的扩展性,及其在其他VLMs中潜在的应用性。

2 Related Work

视觉-语言模型。利用在网页级文本-图像对上的广泛预训练,如CLIP [1] 和ALIGN [2] 这样的视觉-语言模型 (VLM) 在获取涵盖多种模态的多样化表征方面表现出色。这些模型能够灵活地将文本和图像嵌入到一个共享的视觉-语言特征空间中,使得具有相似语义的输入能够接近。自然语言的固有灵活性使得VLMs能够有效地应用于包括图像分类 ,目标检测 ,图像生成,视频动作识别 在内的广泛开放集任务。然而,这种通用目的模型通常无法关注到任务特定的细节,可能导致性能次优。本研究通过提出一种名为AWT的新型适应框架来克服这一局限。

将VLM适应到下游任务。直接将预训练的VLM适应到下游任务通常会导致次优和不稳定性能 [7]。为了克服这一点,现有文献主要集中在使用后训练软提示来丰富任务上下文。这包括如少样本提示学习,跨数据集提示泛化,无监督提示调整 ,以及测试时提示调整等策略。相反,其他方法旨在使用各种资源,如WordNet关系层次 [50],大型语言模型,或稳定扩散模型来增强输入。然而,这些方法主要只增强了一种模态。相比之下,作者的研究创新性地对视觉和文本模态都应用了增强,并解决了双模态增强场景中的重大挑战。

最优传输(OT)。最优传输(OT)起源于十八世纪的Monge问题 ,作为一种衡量数学实体之间距离 [57] 的度量,同时考虑它们复杂的几何结构 [36]。OT历史上以多种形式被重新发现,首次在计算机视觉界以“地球移动者距离” [58] 的名字成名。高效近似求解器 [59] 的发展最近推动了OT的流行,使其在多个领域得到广泛应用,包括目标检测 ,领域适应 ,生成建模 ,语义对应 [69],点云 [70, 71, 72],提示学习以及视频理解。特别与作者的研究相关的是PLOT 和Wang等人,它们利用OT进行细粒度的提示学习以增强VLM。与这两项研究不同,作者的研究通过摒弃对额外训练资源的需求,选择了基于增强的方向。

3 Methodology

Preliminaries

对比语言-图像预训练(CLIP)。CLIP [1] 集成了双重编码器——一个图像编码器 和一个文本编码器 ——将图像和文本描述映射到一个共享的视觉-语言(V-L)嵌入空间中。CLIP旨在最小化语义相关图像-文本对嵌入之间的余弦距离。得益于自然语言的灵活性,CLIP能够直接应用于分类任务,而无需进行特定任务的训练。例如,给定一个图像 和一组候选类别名称 ,其中 表示类别数量。CLIP计算图像的嵌入 和所有类别名称的嵌入 ,其中 是特征维度。随后,图像 属于类别 的分类概率可以表示为:

其中 是一个温度参数。

最优传输(OT)。最优传输(OT)理论源自Monge问题 [35],为结构距离测量提供了一个框架。这一理论概念化了一些场景,如在一个建筑工地重新定位沙子,以最小化努力。从数学上讲,沙子的初始和目标分布被建模为离散测度:

其中 表示以 为中心的集中质量 的狄拉克分布, 同理。这里, 和 分别表示源位置和目标位置的数量。从任何源位置 运输沙子到任何目标位置 的成本由成本函数 给出。为了将应用扩展到更广泛和更复杂的情况,例如,跨模态相关性,采用了Kantorovich松弛 [78]。这种松弛引入了传输计划的灵活性,并确保了对称的传输解决方案。传输计划 ,其中元素 表示从 运输到 的质量,必须满足以下约束:

Kantorovich的公式寻求最小化总运输成本:

其中 定义了成本矩阵。

AWT: Augment, Weight, then Transport

预训练的视觉语言模型(VLMs)在适应新概念时往往表现不佳,这是由于关于新类别的信息不足。此外,它们广泛的预训练范围导致模型分析图像的所有元素,从而使它们错过了对于特定下游应用至关重要的上下文重要线索。为了克服这些限制,作者引入了一种新颖的框架,称为AWT(增强、加权、然后传输),以增强VLMs的适应性,而无需额外的训练。如图2所示,AWT框架包括三个关键组成部分:增强原始输入以生成多样性和内容丰富的视图,在每个模态内对这些视图的重要性进行加权,以及跨模态传输语义相关的元素。

3.2.1 Augment Raw Inputs

增强过程从一幅图像 和类别名称集合 开始,旨在将这些输入转换成提供不同视角和细节的多种视图。

对于视觉增强,作者应用标准数据增强,包括随机调整大小裁剪和随机翻转,以生成一系列多样化的视图 。这个集合包括 个增强图像以及原始图像(用 索引表示),通过多样化和多尺度的视角丰富输入。

为了丰富文本模态,作者利用大型语言模型(LLMs)生成类别描述。像"描述一个{类别}。"这样的典型提示通常会导致描述要么模糊——缺乏具体的视觉细节——要么在语境上不一致。例如,在分类草图等语境中,类别的通用描述可能与草图图像对应得不是很好。为了解决这个问题,作者采用了一种两步走的、针对数据集的提示策略,灵感来自链式思维方法[37]。最初,作者提示LLMs生成多个问题,以探究类别的不同方面,这对于引出详细和多样的描述至关重要。为了确保 Query 与视觉内容保持一致,作者在初始提示中融入了对数据集 Level 的描述。具体来说,作者首先要求LLMs“生成用于从数据集中分类图像的问题,该数据集{数据集描述}。”使用第一步生成的与数据集相关的问题,作者进入第二步,将这些问题与特定的类别名称结合以获得定制的描述。每个类别 的增强视图集表示为 ,包括由原始类别名称形成的附加视图。这种方法确保了描述的多样性以及它们与视觉内容的相关性。

3.2.2 Weight Augmented Views

在增强之后,评估每个增强视图的重要性是至关重要的,因为并非所有视图对分类的贡献都是相等的。一些视图可能是关键的,而其他视图可能信息量较少,甚至可能含有噪声。为了解决这种变化,作者引入了一种基于熵的加权机制来量化每个视图的重要性。作者的关键洞察是,视图对分类置信度的影响——这一指标通常与准确性相关[34]——可以作为其重要性的代理。显著提高分类置信度的视图被认为更为重要。

为了评估第个图像视图的重要性,作者保持文本上下文不变,并计算每个类的平均嵌入表示为,其中是的CLIP嵌入。然后使用图像嵌入和文本嵌入集计算分类概率,遵循方程式(1)。预测置信度通过熵公式来量化。熵越低,置信度越高,允许作者通过负熵来评估视图的重要性,如下所示:

其中是一个调整分布锐度的温度参数。

同样,为了确定第个描述对第个类的重要性,即,作者计算分类概率,使用图像嵌入和文本嵌入集。分类熵由给出。然后,作者计算第个类中所有描述的重要性分数如下:

其中是温度参数。这种基于熵的加权机制确保了对上下文重要视图的优先级。通过根据对分类置信度的直接影响动态调整重要性,可以为最优传输过程准备好增强视图集。

3.2.3 Transport Across Modalities

作者的主要目标是精确测量图像与其候选名称之间的距离。通过增强,作者将每个原始图像或类名转换为一组增强视图。通常,这些集合之间的距离是通过简单平均每个集合内的嵌入来测量的。然而,这种做法往往无法捕捉到跨模态之间的动态相关性。考虑图2中描述的场景,其中特定的文本描述(如“顶部呈圆顶形”)可能直接与某些图像裁剪相关。传统的平均策略通常会忽略这些直观且有意义的相关性。

为了解决这个问题,作者提出了一种新颖的方法,将距离测量公式化为一个最优传输(OT)问题,这有助于模态之间更丰富的互动。作者将V-L空间内的每个视图建模为一个位于其嵌入位置的质量:

在这里,每个视图的重要性权重(由方程(5)和(6)得出)决定了质量分配。任意两点(例如,图像和文本描述)之间的传输成本是用它们嵌入之间的余弦距离来量化的,,这作为语义相似性的直观度量。最优传输的目标是使从视觉模态到文本模态的质量传输的总成本最小化。具体而言,图像视图集和第个类描述集之间的距离被重新定义为和之间的OT问题,如方程(4)中所述。作者使用Sinkhorn算法[59]来有效地近似解,表示为。因此,分类概率可以表示为:

通过采用最优传输框架,作者确保语义相关的视图获得更多关注,从而提高分类过程的准确性和相关性。

4 Experiments

Zero-shot Image Tasks

数据集。对于零样本图像任务,作者重点关注两个主要领域:图像分类和分布外(OOD)泛化。作者的研究涵盖了18个数据集,涵盖了广泛的识别任务:ImageNet [79],Caltech101 [85] 和 Caltech256 [91] 用于通用目标识别,OxfordPets [82],StanfordCars [83],OxfordFlowers [80],Food101 [86],FGVCircraft [88],Birdsnap [90] 和 CUB [92] 用于细粒度分类,SUN397 [87] 用于场景识别,DTD [81] 用于纹理分类,EuroSAT [89] 用于卫星识别,以及 UCF101 [84] 用于动作识别。此外,还涉及四个ImageNet变体数据集,以评估模型进行OOD泛化的能力:ImageNet-A [93],ImageNetV2 [94],ImageNet-R [95] 和 ImageNet-Sketch [96]。

竞争方法。作者主要比较了三种不同类别的方法:

  1. 提示学习方法:这些方法涉及使用额外数据对视觉或文本提示进行后训练,包括 CoOp [7],CoCoOp [10],MaPLe [12],PLOT++ [73],POMP [19]。
  2. 测试时提示调整方法:这些方法在推理过程中优化提示,例如 TPT [46],DiffTPT [47],PromptAlign [49]。3) 增强型方法:这些方法使用LLM或扩散模型来增强输入,包括 CuPL [53],VisDesc [51],WaffleCLIP [52],以及 SuS-X-SD [55]。

表1:零样本图像分类。作者报告了每个数据集的top-1准确率(%)。"Train"列指示方法是否需要额外的训练(包括测试时训练)。灰色数字表示该方法在ImageNet上进行了训练,因此不是零样本。

实现细节。作者使用CLIP-B/16模型[1]实现了AWT框架。图像增强包括随机调整大小裁剪和翻转,类描述通过GPT-3.5[32]生成。作者将增强图像的数量和描述的数量都设置为50。数据集 Level 的描述在附录C中提供。对于视觉和文本模态,作者配置了重要性分布温度为和。最优传输问题使用Sinkhorn算法与为0.1[59]进行近似。所有实验都在一个NVIDIA A100-SXM4-80GB GPU上进行。

结果。在表1中,作者比较了作者的AWT与三种类型的CLIP适应方法:提示学习,测试时提示调整,以及现有的增强型方法。值得注意的是,在没有额外训练的情况下,AWT比所有现有方法都要好很多,在14个数据集中的13个上实现了最先进的表现,并将之前的最佳结果平均准确率提高了2.05%。此外,表2详细介绍了AWT的分布外(OOD)泛化能力。通过利用数据集感知提示和实时调整的动态加权方法,AWT有效地处理了OOD中遇到的复杂情况。因此,AWT在所有四个OOD数据集上均表现出最高的性能,平均准确率提高了3.62%,超过了之前的技术水平。

Zero-shot Video Tasks

设置。在这里,作者专注于零样本视频动作识别任务,使用了三个代表性的数据集:UCF101 [84]、HMDB51 [97] 和 Kinetics-600 [98]。对于UCF101和HMDB51,作者采用了两种评估协议:

1) EP1: 在所有101个UCF类别和51个HMDB类别上测试模型[44, 107],并报告顶级-1准确率。

2) EP2: 使用三个官方分割评估模型,并报告每个分割结果的平均值。报告平均顶级-1准确率和标准差。对于Kinetics-600,作者在Chen和Huang [108]分割的三个验证集上报告顶级-1准确率和标准差。

实现细节。为了模拟时间动态,作者遵循Open-VCILP 的方法,使用邻帧注意力和在Kinetics-400 [109]上微调CLIP。请注意,Kinetics-600的三个测试子集与Kinetics-400的类别集是不相交的。除了视觉增强之外,所有AWT配置对于零样本图像任务都是相同的,作者直接使用不同采样的时间和裁剪的视频帧。

结果。在表3中,作者将AWT与现有的基于CLIP的零样本视频动作识别方法进行了比较。尽管AWT最初并不是为视频任务量身定制的,但它在这个领域创造了新的记录,在HMDB51上比最近的最先进方法FROSTER高出1.6%和2.4%,在Kinetics-600上高出1.3%。这些结果提示,作者的AWT框架可以有效地扩展到视频理解任务。

Few-shot Image Tasks

设置。作者在11个数据集上评估了作者的方法在少样本迁移学习方面的能力:ImageNet [79],Caltech101 [85],OxfordPets [82],StanfordCars [83],OxfordFlowers [80],Food101 [86],FGVCircraff [88],SUN397 [87],DTD [81],EuroSAT [89],以及UCF101 [84]。作者使用1、2、4、8和16个样本训练作者的模型。结果在三次运行中取平均值。

实施细节。所有AWT配置与零样本图像任务相同。在这个任务中,作者在每个层的每个多头自注意力和MLP块后引入了一个多模态 Adapter ,以实现高效学习。

结果。在图3中,作者比较了AWT与现有方法在少样本迁移学习任务中的表现。令人印象深刻的是,AWT分别以2.76%、2.16%、1.62%、1.57%和1.75%的平均准确率超过了之前的最佳水平,对于1、2、4、8和16个样本。特别值得一提的是,在ImageNet数据集上,AWT显著优于所有先前方法。尽管PLOT++也利用了最优传输,但它仅限于局部图像特征和类别名称,忽视了多尺度图像视角和丰富的文本语义,导致迁移能力次优。相比之下,AWT利用不同的增强视图,有效地保持了模态内的重要性权衡,同时建立动态的跨模态相关性,实现了卓越的少样本性能。

Ablation Study

主要成分分析。在表3(a)中,作者分析了AWT的关键组成部分。最初,作者对原始输入进行增强并应用基本集成。结果(第二行和第四行)显示,直接增强图像是无效的,可能是由于背景图像裁剪。相反,文本增强显著提高了性能,这得益于作者为LLM精心设计的提示策略。然后,作者将基本集成转向最优传输(OT),在两个任务上带来了一致的改进。然而,由于无效的质量(即重要性)加权,OT的潜力并未完全发挥。通过结合作者的基于熵的加权方法,该方法准确地评估了每个视图的重要性,作者再次实现了实质性的性能提升。

增强视图的数量。作者在表3(b)和3(c)中分别对视觉和文本侧的增强视图数量进行了研究。结果清楚地表明,性能往往随着视图数量的增加而提高。作者的研究建议,每个模态大约50个视图就足以获得不错的性能。增强视图的数量对AWT的有效性至关重要。鉴于AWT是增强驱动的,这种相关性是直观的。然而,增加增强视图的数量也可能导致在推理过程中产生更高的计算成本,作者在图8中还包括了效率-性能权衡分析。

LLM提示策略。作者评估了作者的LLM提示策略的有效性,具体见表3(d)。

作者的方法与两种成熟的方法进行了比较:VisDesc [51]和CuPL [53]。VisDesc在不同数据集上使用统一的提示模板,而CuPL采用定制的数据集特定手动提示策略,为LLM丰富上下文。作者开发了一个改进的两步流程,通过数据集 Level 的描述增强上下文理解,并通过利用思维链 Query 增加多样性。作者的策略在两项评估任务中一致优于现有方法。

加权中的温度。作者通过在softmax函数的温度参数上开展消融研究,评估了作者的基于熵的加权方法。较高的温度会产生更均匀的重要性分布。两种模态的发现分别呈现在表3(e)和3(f)中。作者的结果显示,非常高的温度(例如100)会导致次优性能,可能是由于对上下文重要视图的强调不足。相反,降低温度会增强对这些重要视图的关注,提高性能。经验上,对于两个模态,的温度被确定为最佳。

Versatility Study

作者的AWT适用于任何使用双编码器将图像和文本映射到具有适当距离度量的联合空间的VLM(例如,余弦相似度)。因此,评估AWT在各种情境下的有效性至关重要。作者使用ResNet 和 ViT 架构进行评估,探索AWT从ViT-B/32到ViT-L/14@336的可扩展性,并在三个VLMs上进行其泛化能力的评估:ALIGN [2],SigLIP [6],以及EVA-CLIP [112]。作者在18个图像数据集上进行实验,结果展示在图4中。作者的发现表明,AWT在所有测试情境中一致地实现了性能提升,突显了其广泛适用性。

5 Conclusion

在本文中,作者介绍了AWT(增强、加权、然后传输)框架,旨在提高预训练的视觉-语言模型(VLMs)的迁移能力。作者的方法不是直接使用原始图像和类别名称,而是通过增加多样的视觉角度和详细的类别描述来丰富输入。

作者进一步开发了一种基于熵的加权策略,以动态地优先处理这些增强的视图,并使用最优传输来测量结构化的视觉-语言空间中的跨模态距离。

AWT框架不仅在不进行额外训练的情况下提升了VLMs的零样本性能,而且还通过集成的多模态 Adapter 模块促进了少样本迁移学习。作者在四个具有挑战性的任务上的评估表明,AWT显著优于现有的最先进方法。

参考

[1].AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • 3 Methodology
  • Preliminaries
  • AWT: Augment, Weight, then Transport
  • 3.2.1 Augment Raw Inputs
  • 3.2.2 Weight Augmented Views
  • 3.2.3 Transport Across Modalities
  • 4 Experiments
  • Zero-shot Image Tasks
  • Zero-shot Video Tasks
  • Few-shot Image Tasks
  • Ablation Study
  • Versatility Study
  • 5 Conclusion
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档