前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Meta-AI再出神作 | 借力打力!设计跨模态量化蒸馏方法,直接白嫖VLP模型的丰富语义信息

Meta-AI再出神作 | 借力打力!设计跨模态量化蒸馏方法,直接白嫖VLP模型的丰富语义信息

作者头像
AIGC 先锋科技
发布2024-07-08 13:31:05
910
发布2024-07-08 13:31:05
举报
文章被收录于专栏:AIGC 先锋科技

"学习哈希"是高效检索的一个实用解决方案,它提供了快速的搜索速度和低存储成本。它被广泛应用于各种应用中,如图像-文本跨模态搜索。在本文中,作者探讨了在强大的大型预训练模型(如视觉-语言预训练(VLP)模型)的普及下,提高学习哈希性能的潜力。 作者介绍了一种名为跨模态量化蒸馏(DCMQ)的新方法,它利用VLP模型的丰富语义知识来改进哈希表示学习。 具体来说,作者将VLP作为一个'教师',将知识蒸馏到配备有码本的学生哈希模型中。 这个过程涉及用具有丰富语义的VLP替换由多热向量组成且缺乏语义的监督标签。 最后,作者应用了一种名为成对一致性规范化(NPC)的转换,以实现具有判别性的蒸馏目标。此外,作者引入了一种新的量化方法——带有甘贝尔(Gumbel)的产品量化(PQG),该方法促进了码本学习的平衡,从而提高了检索性能。广泛的基准测试表明,DCMQ一致优于现有的有监督跨模态哈希方法,展示了其巨大的潜力。

1 Introduction

一种针对大规模跨模态检索系统的有效搜索方法至关重要,鉴于多模态数据的指数级增长,这些数据涵盖了诸如文本、图像、音频和视频等不同格式。在各种方法中,哈希方法(也称为学习哈希)已成为一种有前景的解决方案。它通过简洁地将高维数据点编码为紧凑的二进制代码,促进了近似最近邻(ANN)搜索。哈希方法是一种成本效益高的解决方案,因为它使用仅包含几比特长的二进制代码来表示样本。这使得通过异或操作或倒置的二进制计算快速搜索,迅速确定 Query 与图库之间的相似性得分。

近年来,各种深度学习哈希方法已被应用于单模态和多模态语义内容搜索中。这个任务的目标是从图库中检索与 Query 共享相同语义(如分类标签)的样本。在这里,监督方法通过利用类别标签指导目标哈希表示的学习,已被证明能产生最先进的表现。然而,这些标签通常作为多热向量提供,其语义信息有限,这表明如果提供更详细的语义信息,还有性能提升的空间。

为了解决这个问题,作者转向视觉-语言预训练(VLP)模型。这些模型在大量来自不同领域和数据集的图像-文本对上进行训练,封装了图像和文本之间丰富的语义相似性。然而,VLP模型对训练和推理的巨大计算需求阻碍了它们在构建高效检索系统中的直接应用。此外,为特定检索任务微调VLP模型可能会损害它们对细粒度语义的理解。

为了克服这些挑战,作者引入了一种独特的方法,即跨模态量化蒸馏(DCMQ)。DCMQ将VLP的知识蒸馏到较小的编码器中,提高了检索准确性和计算效率。在DCMQ中,如Figure 0(b)所示,“教师”VLP指导为哈希设计的“学生”模型。一种简单的将VLP知识蒸馏到跨模态哈希学习中的方法涉及将图像及其对应的文本输入到VLP,使用其输出来作为监督信号。然而,文本通常可能包含噪声,而标签名称往往能更可靠地捕捉目标语义。反之,目标标签名称可能无法捕捉到如“行走”或“谈话”之类的语义,这些语义通常存在于文本中,对学生的学习同样重要。因此,作者提出了一种训练方法,旨在利用文本和标签的优势。

具体的训练过程开始于将一个与图像相关的多热标签转换为它的类别名称,从而创建有效捕捉目标语义的文本数据。VLP编码器随后处理这种配对的图像-文本数据以产生相应的嵌入。基于这些嵌入,作者导出一个跨模态目标相似性矩阵,,作者将用它来教导学生进行哈希。然而,作者观察到直接使用比利用原始标签效果更差,因为大多数相似度得分在较短的范围内密集分布,如图2所示,表现出较低的区分度。因此,作者引入了一种称为带有配对一致性的归一化(NPC)的转换,它广泛地重新分配得分以产生一个良好分离的分布,本文作者证明这对于学习具有区分性的哈希表示至关重要。观察图2中的绿色条(不使用NPC)和蓝色条(使用NPC),很明显,蓝色条为相关文本产生了更为明显的相似度,而非负文本。

对于学生哈希模型,作者采用了基于产品量化(PQ)[25]的深度学习方法。这种方法因其表现力强而受欢迎,这源于使用多码本以二进制代码表示图库样本。然而,针对PQ方法的深度学习[61, 21, 22]通常会导致对某些码字的过度拟合,这会导致次优的码字使用并限制泛化能力。为了解决这个问题,作者引入了一种新技术,带有多贝尔的PQ(PQG)。PQG在训练期间使用多贝尔噪声[19]来正则化码字选择,促进平衡的码字贡献并增强检索模型的泛化能力。这种增加的能力使得模型能够捕捉到标题中存在的附加语义,因为学生模型使用文本作为输入。

为了验证DCMQ,作者在各种图像-文本跨模态检索基准数据集上进行了广泛的实验。作者利用不同规模参数、架构设计和学习策略的多种VLP模型,以证明DCMQ的广泛适用性和强大的有效性。这些结果证实了DCMQ的效率及其与跨模态协议中的最新技术水平相媲美的出色检索性能。

2 Related Work

深度学习与哈希。学习哈希利用深度学习,从多媒体数据(如文本、图像、音频和视频)[4, 48, 59, 35, 62, 23, 11, 56, 37, 36]提供具有设计目标训练信号。深度监督哈希方法已在各个领域得到广泛研究,至今仍是研究的热点。例如,人脸检索[24]和人脸识别[20]等任务,或压缩[5]都已利用了深度哈希代码表示。基于产品量化[25](PQ)的深度方法生成了实值哈希表示,是学习哈希的主要方法之一。具体来说,研究者验证了监督[61, 29, 13],半监督[21]和无监督[22, 59]的深度PQ方法在基于内容的检索中具有卓越的性能。

跨模态检索的哈希学习。为了生成在不同模态数据之间对齐的哈希代码,已探索了非深度[40, 52, 55, 44, 64]和深度学习方法[57, 27, 46]。特别是,对于图像和文本之间的基于内容的跨模态搜索,深度监督方法[26, 42, 2, 7, 58, 43]通过利用额外的多热标注向量显示出有希望的性能。也考虑了深度无监督方法[8, 34, 63, 31, 17, 50, 60],这些方法通过数据重建或构建的图获取训练信号,以学习模态之间的相互对齐。尽管这些方法取得了进展,但本文表明作者可以利用VLP的知识来实现更好的哈希表示。

提炼视觉-语言预训练。使用深度视觉和语言编码器连接大量图像和文本,在构建高质量的VLP模型[45, 49, 47, 38]方面取得了巨大成功。为了利用其智能同时保持模型效率,引入了知识蒸馏策略[15]来构建更小的VLP模型[12],或利用目标信息辅助训练[41]。一些方法包括[10]使用自蒸馏,采用自监督方法通过识别原型之间的模态稳定对齐来学习表示码本,以及[1],它修改了作为训练目标的相似性矩阵,以解决噪声视觉-语言对齐的挑战。据作者所知,作者的工作是首次教导一个显著较小的学生模型具备VLP的知识,同时获得哈希的能力。与旨在训练连续学生模型的常规蒸馏方法不同,哈希涉及不可微的量化过程,使得作者的情况下的蒸馏并不平凡。

3 Method

Overview

跨模态检索的目标是将图像和文本(标题)映射到一个共享的嵌入空间中,并找到相同语义内容之间的对齐。考虑一个视觉-语言数据集,包含个样本,表示为,其中、和分别表示第个图像、文本和相应的多热编码标签。通过图像编码器和文本编码器,产生相同D维度的两个分离的图像和文本特征向量嵌入和作为输出。

作者为深度PQ参数配置了个码本,每个码本包含个码词,表示为,其中,,以收集具有判别性的跨模态表示。DCMQ的所有可训练组件、和都在一个端到端的单一框架中联合训练。为了用监督更新模型(学生)参数,计算了成对-的个样本与从码本(第3.3节)派生的对应软量化嵌入之间的余弦相似性(第3.4节)。这些从学生输出的相似性分数然后由VLP模型(教师,第3.2节)的预计算目标相似性矩阵进行监督。

VLP as Supervisory Teacher with NPC

为了利用在VLP模型中捕获的语义知识 ,其中 和 分别表示图像编码器和文本编码器, 和 被送入产生嵌入表示 和 。注意 是 的文本翻译版本,其中标签被替换为相应的类别名称,所有嵌入都是 -标准化的。然后作者基于跨模态相似性计算一个相似性矩阵,包含了 对图像和文本的VLP嵌入集合 和 ,如下:

其中 是一个表示嵌入之间余弦相似性分数的相似性矩阵。然而,初步观察发现 中的余弦相似性分数仅在较小的范围内分布,如图2(a)所示,这可能是因为VLP在远多于检索训练集的样本上训练。因此,将 适应到目标领域是必要的,所以作者引入了成对一致性的归一化(NPC)技术,在算法1中给出。

算法1 NPC算法。

注意,NPC将 的每个元素映射到一个关于 斜率和 y轴截距的线性函数,并将它们重新缩放到-1.0到1.0。为了保持图像和文本对之间的一致性, 的对角元素被设置为最大值(1.0),避免模态之间的错位。图2(b)显示了这种归一化的积极效果。然后 用于监督组件(, 和 )的训练。

这种VLP监督方案有几个优点。首先,一旦离线获得整个VLP嵌入并保存,作者只需要对大型VLP模型进行一次推理。其次,唯一额外的计算负载是带有归一化的简单矩阵乘法,这是高效的。最后,VLP监督能够转移丰富的语义理解,这比多热编码标签更好。### 带有Gumbel的产品量化

作者采用PQ [25] 寻找量化的码字(质心)并学习哈希表示。受到之前深度PQ工作的启发[61, 21, 22],这些工作在训练过程中用可微的Softmax操作逼近量化(argmax),作者提出了一个带有Gumbel的产品量化(PQG)方案,该方案旨在提升非关注码字的影响,如下:

其中 是平衡超参数, 是 的软量化输出, 是通过将 切分成 份得到的第 个子向量,即 。 表示注意力模块,以 作为 Query ,以 作为键和值,定义如下:

其中 表示输入之间的余弦相似性。参数 表示归一化温度的 Softmax,可以用 Gumbel-Softmax [19] 替换以在 中引入随机性,其公式如下:

其中 和 分别表示温度超参数, 表示从标准 Gumbel 分布( 和 )中采样的噪声。在这里,作者将确定性的 和随机的 集成到量化中。这样做有助于增加每个码字对泛化的贡献,而不仅仅是关注最注意的码字。

最终,方程式2应用于图像和文本嵌入的每个以生成,然后,所有被连接起来,产生一个软量化嵌入,如图4所示。具体来说,尽管图像和文本是配对的,并且共享代码本中的相同码字,但Gumbel技巧为表示和提供了额外的空间,提高了模态对齐的鲁棒性。此外,跨模态表示在连续编码空间中集成,促进了更精确的检索的哈希表示学习。第4.3节呈现了作者的消融研究。

Finding Cross-Modal Alignment

为了使用VLP监督训练所有可学习组件,即图像和文本编码器(, )以及,作者设计了两个训练目标:

其中 是用于训练批量的标准交叉熵损失函数, 是Softmax,与方程4相同,但具有不同的温度 。一系列嵌入被用来获取图像到文本()相似性矩阵 ,其中 ,,反之亦然用于文本到图像()。

如图3(b)所示,作者优先最大化 和 之间的相似性,以及 和 之间的相似性,而不是 和 之间的相似性。实证观察表明这种方法能产生更优的结果,这与文献[22]中报告的发现一致,作者将在附录10中报告结果。

Inference

为了执行图像到文本检索(文本到图像的检索过程类似),文本库的建立方法如下。首先,将给定的文本 传递给 以生成 ,然后将其切片以生成 个子向量。其次,作者找到每个子向量对应的码本中最近的码词的索引。最后,作者将这些索引转换为二进制代码并将它们连接起来生成一个二进制代码。这个过程(反向二进制索引)对所有需要存储在库中的文本重复进行。在检索过程中, Query 图像 传递给 并生成嵌入 。 被切成 个子向量,并计算它们与码本中每个码词的余弦相似度以创建一个查找表。计算 Query 与库之间的非对称距离,并通过累加查找结果来加速这一过程。

4 Experiments

Settings

作者确保论文中使用的所有工件都遵循其特定的许可条款,允许研究使用。此外,作者确认数据中不包含个人标识符或冒犯性内容。

数据集。为了与之前的工作[26; 58]进行公平的比较,作者在这三个数据集上评估了作者的方法:MS COCO、MIRFlickr 和 NUS-WIDE,这些数据集也被早期的工作所使用。详细的配置在附录6中找到。

评估指标。作者遵循社区中的相同做法[58]进行评估。在跨模态检索(文本 Query 到图像库,以及图像 Query 到文本库)方面,作者采用的指标为:到排名结果的平均平均精度(mAP),到前的Top -精度曲线,以及的召回率。作者设置,并将目标比特数设置为32、64和128进行评估。

实施细节。为了与现有方法进行公平比较,作者将学生图像和文本编码器的 Backbone 网络固定为ImageNet预训练的ResNet18(RN18)[16]和三层的多层感知机(MLP)分别用于DCMQ。请注意,与早期工作一样,作者使用MLP作为文本编码器,因为数据集提供的文本是作为词袋特征向量而不是实际的文本。作者变化码本数量以匹配目标比特数,同时将码字数量固定为。作者在PQG中平衡和的贡献,将设置为1.0,用于噪声较大的(由于缺少标签)MIRFlickr和NUS-WIDE,但对于噪声较小的MS COCO,将调整为0.5。温度超参数相应设置为。将CLIP [49]、DeCLIP [38]及其变体作为教师,其中ViT-B32被选为默认图像编码器(DCMQCLIP-ViT-R32,DCMQDeCLIP-ViT-R32),所有VLP嵌入都是离线准备一次。作者采用Adam优化器[28],初始学习率为,并在NVIDIA A100-40G GPU上的20个周期中的10个周期后降低十分之一。

为了检索的目的,将编码器的最终全连接层替换为输出和维嵌入的新层,分别用于PQ和哈希方法。特别是对于非深度的PQ [25]和OPQ [14],作者将图像转发到没有新层的相同RN18编码器,并应用主成分分析(PCA)获取D维输出。

此外,对于文本词袋,作者直接应用另一PCA生成相同的D维输出进行码本训练。对于基于深度学习的学习哈希方法,作者根据DCMH[26]和SSAH[31]作者的提供的代码仔细重新实现,并按照原始论文中提供的训练细节仔细实现了CMHH [2]和CMMQ [58]。作者工作中的其他PQ方法也遵循与DCMQ相同的超参数设置。当将多热标签标注替换为实际的类别名称时,作者通过经验发现简单地使用名称之间的空格产生了最好的结果。

因此,在这种情况下,作者选择不使用特殊提示。作者在所有实验中使用了Intel(R) Xeon(R) Platinum 8275CL CPU @3.00GHz。

Comparing with Existing Methods

在基准测试上的实验结果在表1中报告,其中每个设置的最高分数以粗体显示,作者突出了DCMQ的性能。值得注意的是,DCMQ在所有数据集的每个位设置中都产生了最佳的mAP分数。基于深度学习的方法通常优于非深度学习的方法(PQ,OPQ)。对于MIRFlickr,NUS-WIDE和MS COCO,所有位设置的mAP分数平均值在任务上分别为30.3%p,44.4%p和46.6%p,在任务上分别为21.4%p,43.6%p和46.8%p,与非深度学习方法与DCMQ之间的差异。当使用相同的 Backbone 网络RN18,与深度学习方法(DCMH,SSAH,CMHH,CMMQ)相比,DCMQ在任务上平均实现了10.7%p,12.8%p和20.1%p,在任务上平均实现了9.4%p,16.0%p和31.3%p的更高检索分数。请注意,DeCLIP使用了比CLIP更多的数据转换方案,而CLIP则是用更多的图像-文本对进行训练。这似乎使得较小的图库大小MIRFlickr有利于DCMQ,而具有较大图库和更多标签类别的MS COCO有利于DCMQ。此外,参考图5,DCMQ在两个指标(前1000准确率和召回率在1000)下显著优于其他方法,幅度很大。这些结果展示了DCMQ在真实情况下的部署潜力,可以高精度和高召回水平检索大量相似样本。

Ablation Study

作者研究VLP教师知识蒸馏的影响。

作者对使用不同VLP教师进行DCMQ进行了消融实验,并在表2中列出结果。对于CLIP [49] 及其变体,作者采用了不同的图像编码器 Backbone 网络,分别是RN50:ResNet50、ViT-B32和ViT-L14。同样,对于DeCLIP [38],作者选择了相同的RN50和ViT-B32作为教师模型。作者还证明了DCMQ具有容纳结构不同VLP模型的灵活性,包括那些使用与CLIP(ALBEF [32] 和BLIP [33])不同的推理协议的模型。只要能计算图像和文本嵌入以构建相似性矩阵,DCMQ就适用。实际上,使用带有ViT-B的BLIP甚至比使用CLIP取得了更强大的结果。这表明,通常利用性能更高的VLP模型作为教师可以提高检索准确性,从而验证了从VLP中提炼知识的实用性。

表4:Gumbel-Softmax(在方程5中)对MIRFlickr的影响。

NPC的影响。表3显示了NPC对性能的影响。"Identity"指的是使用大小为的Identity矩阵替代。"带有多热标签"是指使用多热标签构建目标相似性矩阵。"不使用NPC"表示在训练阶段排除算法1,并应用纯相似性分数。结果表明,结合VLP教师与NPC优于所有其他设置。有趣的是,直接应用没有NPC的VLP知识往往会导致性能下降。然而,结合NPC显著提高了性能,突显了NPC在蒸馏过程中的重要作用。PQG的影响。此外,如表4所示,使用PQG规范码字是一种有效的措施,可以进一步用来提升性能。这证明了PQ将相似性分数表示为实值而非散列的优势。整个DCMQ Proposal 结合在一起时展示了最佳结果,证实了其有效性。

成本和效率比较。作者进行实验以证明DCMQ在计算成本和性能方面的优势,比较了使用128-D浮点型微调CLIP(CLIP-RN50)、128位二进制CMMQ(RN18)和128位DCMQ(RN18为学生模型,CLIP-RN50为教师模型)的计算成本和mAP。在表5中,作者可以看到,CMMQ和DCMQ通过在汉明空间近似最近邻来提高检索速度,同时也显著降低了存储成本,比CLIP中的浮点型图库嵌入低120倍。在mAP方面,CLIP和DCMQ都超过了不使用VLP的CMMQ,但最重要的是,尽管进行了量化,DCMQ仍取得了最佳性能。附录11中可以直接比较训练后的CLIP与DCMQ的附加结果。

由于DCMQ在3.5节中概述的近似最近邻搜索操作,它不仅具有更低的存储成本,而且达到了更快的搜索速度。随着图库大小的增加,这些优势变得更加明显。此外,作者的方法只需在数据准备阶段对VLP进行一次推理,并利用与之前学习散列方法相同的 Backbone 架构,从而产生最小的额外训练成本和高的回报。

定性结果。作者检查了使用CLIP-ViT-L14作为教师训练的DCMQ的定性结果。图6中的结果显示,DCMQ产生了高质量的检索结果。

5 Discussion & Conclusion

局限性尽管DCMQ在检索任务中显示出潜力,但其对其他类型任务的有效性尚未经过测试。这些局限性指向了未来研究扩展DCMQ适用性的机会。此外,关于潜在的社会影响和危险,由于检索系统依赖于包含敏感信息的训练数据,可能会引发隐私问题,导致潜在的歧视性结果。因此,作者需要谨慎采取措施来减轻这些问题。

结论本文提出了跨模态量化蒸馏(DCMQ),这是一种新颖的方法,利用VLP模型的语义知识来增强基于哈希的跨模态检索。作者引入了两种创新技术:配对一致性规范化(NPC)以有效利用学习到的图像-文本相似性,以及带Gumbel的产品量化(PQG)以实现健壮的量化。DCMQ在三个著名基准测试上取得了最先进的表现,广泛的实验证实了这一点。这项工作是首次成功尝试将VLP固有的语义应用于基于量化的跨模态检索。

6 数据集配置

MS COCO[39]是一个包含超过130K样本的图像-文本配对数据集,每个样本都从80个类别中分配有一个或多个语义标签。与其他方法[54, 58]一样,作者分别为训练和测试随机选择了10,000和5,000个样本,并使用2026维词袋(BoW)作为文本数据。由于MS COCO数据集每张图像都有实际的文本描述(标题),作者在第8小节中通过用VLP的文本Transformer[49]替换文本编码器来评估DCMQ的实际文本输入。

NUS-WIDE[6]包含从网络上收集的超过260K张图像,所有图像都至少有一个81个概念标签之一。与之前的工作[26, 2, 58]一样,作者过滤掉没有文本描述的图像,并选择属于21个最频繁概念的图像进行评估。对于选定的每个概念,训练集和 Query 集分别包含500和100张图像,每个图像都与一个1,000维的文本BoW相关联。

MIRFlickr[18]由从Flickr收集的25K张图像组成,每张图像都有多个类别标签。这些标签被VLP教师用于评估。每张图像还与多个常见的标题相关联,这些标题来自1,386个,但它们并非专门为每张图像提供。相反,每张图像都给出了一个1,386维的词袋(BoW)特征向量。总共,按照[26]中的数据集准备过程,作者最终得到了20,015个样本,其中文本由BoW特征向量表示。

7 Extremely short bit

为了证明DCMQ的有效性,作者在构建检索系统时,在极其有限的位数条件下进行了进一步的实验。将码本的数量设置为,结果在表6中呈现。采用基于PQ的学习散列方法使作者能够在训练过程中融入如PQG和NPC这样的鲁棒性表示,因此在最小位条件下也能取得可比较的性能。文本描述作为输入数据。

在本研究中,作者选择多层感知机(MLPs)作为学生模型的文本编码器,这一选择是由基准测试依赖于词袋(BoW)特征向量而非原始文本所驱动的。然而,问题出现了:如果使用实际的文本会怎样?。因此,作者在学生模型中采用了一个可以处理实际文本的文本编码器,以探索它对散列性能的影响。鉴于MS COCO数据集为每张图像都提供了详细的文本描述(标题),作者为学生模型使用了CLIP-RN50 [49]的视觉-语言预训练(VLP),将标题输入到文本编码器中。从VLP的图像和文本编码器开始,作者评估了使用标题而非BoW向量进行检索的DCMQ方法的效果。如图7所示的结果表明,与Identity(自监督)设置相比,DCMQ训练方案也提高了VLP在图像和实际文本的跨模态检索上的效果。

此外,作者在图8中展示了使用实际文本训练的DCMQ的定性结果。很明显,DCMQ生成了高质量的检索结果。

不同的图像编码器 Backbone 网络

作者在表7中探索了学生模型使用更强大的图像 Backbone 网络时DCMQ的潜力,这在从业者可能愿意为了更强的性能而增加计算负载时可能有用。具体来说,作者研究了以下作为图像编码器的效果:预训练的AlexNet [30],以及ResNet50(RN50)[16]及其变体:DINO-RN50 [3],CLIP-RN50 [49],以及视觉Transformer(ViT-B32)[9]及其变体:DeiT [51]。作者固定DCMQ的教师为CLIP-RN50,以确保公平比较。

不出所料,从结果中作者可以观察到, Backbone 网络越强大(在考虑分类任务时DeiT是最强大的),通常性能越好。请注意,尽管作者在这里使用了随机初始化的简单3层文本编码器,但随着更强大的图像编码器 Backbone 网络的使用,所有跨模态检索性能都有所提高。对于CLIP-RN50 Backbone 网络,得分略低于预期,作者怀疑这是因为教师也使用了CLIP-RN50,如前所述,额外的知识转移可能并不那么显著。另一方面,有趣的是,即使是对于AlexNet,DCMQ也能取得可比较的结果。

8 Effect of joint training

作者研究了表8中联合训练的效果。类似于[22],实值特征向量和量化向量的联合训练增强了检索性能。直接利用小尺寸的VLP

直接用多热标签对较小的VLP模型进行微调,在哈希学习中可能表现出不错的效果,这与作者在表5中报告的CLIP类似。然而,这些模型固有地存在局限性,作者通过在CLIP-RN50上进行额外的实验进一步研究了这些局限性。作者不对它进行蒸馏而直接进行微调,并应用标准的监督PQ [61]来训练64位码本。表9的结果突显了这些局限性。

与大多数基础模型一样,VLP模型的性能与模型和数据集的大小成比例缩放,这种现象称为缩放法则。因此,较小的VLP模型可能比它们的大尺寸对应模型表现不佳。蒸馏为这个问题提供了一个解决方案,允许较小的学生模型利用较大VLP的力量。

作者的论文表明,即使学生模型的 Backbone 网络显著较小,如RN18,使用高性能的VLP模型作为教师可以增强检索性能(见表2)。

9 Impact of PQG on codeword distribution

如图9所示,在没有进行PQG训练且使用标准softmax操作的情况下,作者注意到某些码字往往会占主导地位。也就是说,大多数数据样本映射到这些特定的码字上,导致熵值低,从而限制了信息容量。相反,当应用PQG时,码字的选择更加均匀,表明熵值增加。这意味着系统可以通过选择各种码字来容纳更多信息,进而提高性能。

参考

[1].Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • 3 Method
    • Overview
      • VLP as Supervisory Teacher with NPC
        • Finding Cross-Modal Alignment
          • Inference
          • 4 Experiments
            • Settings
              • Comparing with Existing Methods
                • Ablation Study
                • 5 Discussion & Conclusion
                  • 6 数据集配置
                  • 7 Extremely short bit
                  • 8 Effect of joint training
                  • 9 Impact of PQG on codeword distribution
                  • 参考
                  相关产品与服务
                  人脸识别
                  腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档