前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >打破单模态局限,LoRS在多模态数据提炼上的突破 !

打破单模态局限,LoRS在多模态数据提炼上的突破 !

作者头像
AIGC 先锋科技
发布2024-07-08 14:16:15
1150
发布2024-07-08 14:16:15
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

在近年来数据集提炼已经迅速发展的同时,多模态数据的提炼,例如图像-文本对,提出了独特且尚未深入探索的挑战。与单模态数据不同,图像-文本对比学习(ITC)数据缺乏固有的分类,而应该更加注重模态之间的对应关系。 在这项工作中,作者提出了用于多模态数据集提炼的低秩相似性挖掘(LoRS),它同时提炼带有图像-文本对的Ground Truth相似性矩阵,并利用低秩分解以提高效率和可扩展性。 所提出的方法对现有算法带来了显著的改进,对视觉-语言数据集提炼领域做出了重要贡献。 作者主张采用LoRS作为图像-文本数据集提炼的基础合成数据设置。作者的代码可在https://github.com/silicx/LoRS_Distill获取

1 Introduction

数据集蒸馏能够在保留其基本信息和模型训练性能的同时,合成一个更小且更紧凑的数据集。由于它具有很高的压缩比,在机器学习和大规模模型数据的背景下尤其值得关注。然而,当前的算法在图像领域的应用受到限制,很少有研究涉及到其他单一模态的数据,如文本(Li和Li,2021年)、视频(Wang等人,2023年)或图形数据(Xu等人,2023b年)。随着视觉-语言预训练模型(VLP)和多模态大型语言模型(MLLM)(Li等人,2023年;Liu等人,2023a年)变得占主导地位,作者将注意力转向配对的图像-文本数据。

作为VLP的基础,作者关注图像-文本对比学习(ITC)数据,并旨在有效地进行图像-文本数据集蒸馏,这可能会提高多模态模型的效率和推动其研究。

图1:传统的数据集蒸馏可以适用于图像-文本数据,但受到固定数据配对(“ Baseline ”)的限制。作者提出相似性挖掘,同时提炼出真实的相似性矩阵,并通过低秩优化实现公平的数据参数大小(LoRS)。

然而,图像-文本对的蒸馏比单模态数据要困难得多:

(1) 算法不仅应该分别压缩每种模态,还应该正确学习模态之间的对应关系;

(2) 单模态数据具有类别并且分布在簇中;但图像-文本对数据没有分类且稀疏分布,这可能导致数据集蒸馏的样本方差很高。

正如以前的工作所指出,这使现有的算法如梯度匹配和分布匹配失效。尽管首个图像-文本数据集蒸馏工作(Wu等人,2023年)使用普通的多任务Transformer(MTT)(Cazenavette等人,2022年)取得了不错的性能,但它缺乏对图像-文本数据的特定适应和利用。

因此,作者 Proposal 强调学习模态对应关系,而不是总结每个类别的数据模式。如图1所示,普通的 数据集蒸馏算法利用了固定的图像-文本对应关系。

为了提高信息密度并增加灵活性,作者 Proposal 在数据集蒸馏过程中同时学习图像-文本相似性作为辅助信息,即相似性挖掘。提炼出的相似性矩阵可以被用于任何图像-文本对比学习模型中,只需对对比损失函数进行细微的修改。

这种方法将普通蒸馏方法扩展到学习合成图像与文本之间的完整对应关系,可以大致认为是将个图像-文本对扩展到个配对数据。因此,作者在不增加模型开销的情况下丰富了合成数据的信息。作者提倡在图像-文本数据集蒸馏中采用相似性挖掘作为一个基本的算法设置。

为了支持这种方法的合理性和可行性,作者从模型学习的角度证明了相似性挖掘的合理性:

(1) 负样本挖掘:普通的图像-文本对比(ITC)模型 假设每个批次中的样本是不同的,因此使用单位矩阵作为真实相似性矩阵(只有样本本身是正的,其他样本都是负的),但有时批次样本之间存在潜在的相似性(Srinivasa等人,2023年),相似性挖掘可以找到这些样本并自动修正错误的损失惩罚。

(2) 灵活的对比学习 Anchor 点:ITC可以看作是特征嵌入与 Anchor 点之间的吸引和排斥。相似性挖掘赋予了对 Anchor 点明确赋权的灵活性,以便某些 Anchor 点可以等效合并而不会改变学习动态,这将大大提高数据集蒸馏的压缩率。这些将在3.3节中详细讨论。

这项工作的贡献包括:

(1) 对于图像-文本数据集的提纯,作者提出了一种新的学习相似性矩阵的范式,作为合成数据的一部分,这从ITC训练的角度来看是有充分根据的。

(2) 作者提出了一种新颖且可行的相似性挖掘实现,其中包括低秩分解。

(3) 作者的方法在存储负担相同或更小的情况下,显著优于 Baseline 方法。

2 Related Work

在过去的十年里,深度学习在计算机视觉领域引发了一场革命,在图像分类、目标检测和图像分割等各项任务中取得了重大突破。

近年来,深度神经网络的发展正从传统的识别任务转向更加复杂和具有挑战性的问题,如视觉问题回答和图像生成。

Dataset Distillation

数据集蒸馏(DD)旨在从大规模数据集中合成一个小规模数据集,它可以替代原始数据集进行训练,同时保持性能。

现有算法可以分为:(1) 元模型匹配

在完整数据集上优化经验损失,保持蒸馏数据的可迁移性。继DD的最初工作(Wang等人,2018)之后,许多方法被提出。KIP(Nguyen等人,2020)集成了岭回归以降低计算复杂度,并进一步扩展到无限宽网络(Nguyen等人,2021)。RFAD(Loo等人,2022)在KIP中使用神经网络高斯过程核替代。FRePo(Zhou等人,2022)将网络划分为特征提取器和分类器进行优化。RCIG(Loo等人,2023)利用隐式梯度来计算元梯度。

(2) 基于梯度的方法

DC对真实数据和合成数据的训练梯度进行对齐。IDC(Kim等人,2022)通过以较低分辨率存储合成数据来改进DC。MTT(Cazenavette等人,2022)在多步训练后匹配参数,这可以看作是长期梯度匹配。TESLA(Cui等人,2023)减少了MTT的内存消耗。Shin等人匹配真实数据和合成数据的损失锐度,这与梯度相似。

(3) 基于特征的方法

DM(Zhao和Bilen,2023)匹配真实数据和合成数据之间的分布,而CAFE(Wang等人,2022)引入了逐层特征对齐。IDM(Zhao等人,2023)通过正则化和模型队列进一步增强了DM。

(4) 分解方法

这些方法将数据分解为基础和幻觉器,这可以减轻存储负担并增加合成数据的多样性。HaBa 使用卷积网络幻觉器,而LinBa使用线性的幻觉器。KFS提供生成示例之间信息的高效共享,并在压缩比和质量之间取得更好的平衡。频域分解也已被采用 。

许多其他方法超出了这些类别,并为DD引入了创新。为了优化现有方法,一些研究专注于数据或模型增强(Zhao和Bilen,2021;Zhang等人,2023)以提高DD的泛化能力,而一些研究则利用样本选择来实现有效的DD 或扩展应用。

生成模型被用作合成图像生成器。SRe2L(Yin等人,2023)提出了一种针对大型数据集更有效的3阶段学习范式。贝叶斯推理也可以用于数据集蒸馏。Wu等人提出了关于图像文本数据集蒸馏的第一项工作(Wu等人,2023),通过匹配图像和文本编码器的轨迹取得了不错的性能,但它没有对图像文本数据做特定的适配。

Image-text Contrastive Learning

图像-文本对比学习是多模态学习的关键基础。CLIP(Radford等人,2021年)首次采用图像-文本对比学习,该方法对不同模态编码器获取的特征进行对齐。该模型在大规模数据上进行训练,以实现“规模效应”和开放词汇的迁移性。ALIGN(Jia等人,2021年)和Flava(Singh等人,2022年)是最早提出对比学习工作的研究之一。CHiLS(Novack等人,2023年)探索了带有标签层次结构的丰富嵌入。

FILIP(Yao等人,2021年)探索了两种模态之间的逐 Token 相似性。ALBEF(Li等人,2021年)和CoCa(Yu等人,2022年)专注于跨模态注意力。BLIP 和BLIP 结合了多模态学习方法,表现良好。还有一些近期工作专注于CLIP-like模型中的软标签。SoftCLIP 通过生成同模态相似性实现了软跨模态对齐。Andonian等人(2022年)使用逐步自蒸馏从噪声数据中学习鲁棒模型。

3 Methodology

Preliminary

Similarity Mining for Image-Text Distillation

Justification of Similarity Mining

相似性挖掘技术可以从两个角度进行解释:

假阴性挖掘。标准的ITC模型(如CLIP)假设不同样本中的图像和文本是负对,但由于噪声网络数据中潜在的相同或相似数据样本,这一假设可能被违反。对于像YFCC100M(Thomee等人,2016年)或LAION(Schuhmann等人,2022年)这样的大规模数据集来说,这些潜在的相关对可能是可以忽略的,因为有足够的真实阳性和阴性对将表征引导到正确的位置。然而,合成数据的小规模导致对假阴性的鲁棒性较低,这需要一个更准确的GT相似性。

因此,相似性挖掘范式可以减轻假阴性的影响,因为它可以为潜在的负对施加非零相似性。作者在Flickr30k上进行了一个简单的实验。作者用50个真实数据对及其副本初始化100个合成对,使得在蒸馏过程中第个和个样本将相似,但被视为负对。

最后,有100个真实阳性对,100个假阴性,9800个真实阴性对。作者在图3中展示了蒸馏相似性的归一化直方图,相似性挖掘技术通过学习相对较大的相似性值确实找到了假阴性。

灵活的对比学习 Anchor 点。作者将更深入地探讨图像文本对比学习,首先分析对比损失梯度。为了简洁起见,以下讨论假设图像和文本表示是标准化的,并且不失一般性,作者只讨论图像表示上的梯度。

Low Rank Similarity Mining

尽管相似性挖掘可以帮助数据集提纯任务,但当数据量大时,额外存储的相似性矩阵大小会呈二次增长,甚至可能超过图像和文本存储的大小。大型的相似性矩阵优化起来也会很棘手,并且需要更多的训练迭代来完全训练该矩阵。因此,作者利用相似性矩阵的低秩特性来减轻存储负担。

从错误负样本挖掘的角度来看,相似性矩阵本质上应该是低秩的:如果两个样本相似,根据三角不等式,相似性矩阵中的两行或两列也会相似,这导致了一个低秩的相似性矩阵(附录C.1节)。然而,学习到的相似性矩阵并非如此,作者希望作者的方法能够建模所有不同秩的相似性矩阵,包括最简单但满秩的身份相似性矩阵。因此,作者参考(Hu et al., 2021)提出对残差相似性矩阵应用低秩近似,即作者将相似性矩阵分解为可学习的对角线和低秩残差矩阵:

总的来说,作者提出了用于图像-文本数据集提纯的低秩相似性挖掘LoRS)技术。这种方法引入了成对多模态数据的一个新组件,但可以无缝嵌入到所有多模态对比学习算法中。图5也显示了计算图的概览。合成数据的可学习参数是,其中首先组合成合成相似性矩阵,然后用于更新合成轨迹的网络参数。合成轨迹与真实轨迹通过MTT损失对齐,并通过反向传播更新5个参数。算法也总结为算法1,以为例,并给出了LoRS生成的合成数据的使用方法,见算法2。

算法1 低秩相似性挖掘(LoRS

4 Experiments

Dataset and Metrics

作者按照利用MTT 算法的强大 Baseline 的方法,在Flickr30k 和COCO(Lin等人,2014年)数据集上评估了作者的方法。Flickr30k和COCO分别是拥有31K和123K张图片的图像标题数据集,每张图片都与五个标题配对。模型性能通常通过top-K检索的召回率(R@K)来衡量:给定一种模态的 Query ,作者从另一种模态中检索最接近的k个匹配项并测量其准确性。作者将文本到图像检索表示为IR@K,将图像到文本检索表示为TR@K

Baselines and Proposed Method

作者比较了各种 Baseline 方法,包括:

(1) 核心集选择:随机(随机选择数据子集),Herd (Welling, 2009),K-中心 (Farahani and Hekmatfar, 2009) 和遗忘(Toneva et al., 2018)。

(2) 数据集精炼:MTT-VL (Wu et al., 2023) 将 MTT (Cazenavette et al., 2022) 适应到图像-文本对(或称为MTTNCE)。TESLA (Cui et al., 2023) 是MTT的一种高效实现,因此作者将 TESLA 适应到多模态数据,并使用加权BCE损失(TESLAwBCE)。

相比之下,作者将作者的 LoRS 技术应用于带有加权BCE损失的 TESLA (Cui et al., 2023) 算法(LoRSwBCE)。

Implementation Details

遵循MTT强 Baseline (Wu等人,2023年)的设置,作者采用ImageNet(Deng等人,2009年)预训练的NormalizerFree ResNet(NFNet)(Brock等人,2021年)作为图像编码器,以及预训练的BERT-base(Devlin等人,2018年)作为文本编码器。在文本编码器后附加一个线性层。

在蒸馏和训练阶段,都加载预训练权重,并且为了效率冻结文本网络。

作者直接合成文本嵌入,而不是标题。作者使用TESLA(Cui等人,2023年)作为基础的蒸馏算法,不进行标签学习。

作者在完整的真实数据集上训练网络10个周期,作为专家轨迹重复20次。实验在一个RTX 4090 GPU上进行,证明了该方法的高效性。

在蒸馏阶段,图像被调整为224224大小,文本嵌入为768维。合成数据使用SGD和动量0.5进行学习。图像和文本初始化为随机的真实样本。其余超参数(包括学习率和LoRS参数)因不同数据集和合成数据大小而异,由于篇幅限制,这些参数在附录的F节中列出。

特别是,为了公平比较,作者减少了LoRS的合成对数量,以保持合成参数,例如,对于配对=500的实验,作者将LoRS的配对数量减少到499,以节省个参数,这支持最大秩。在实践中,为了效率,作者使用更小的秩,通常小于50。

Results

表2:Flickr30k上的结果(Plummer等人,2015年)。在完整数据集上训练的模型表现如下:IR@1=27.3,IR@5=57.1,IR@10=69.7;TR@1=33.9,TR@5=65.1,TR@10=75.2。

图6:初始化和合成图像-文本对的示例。

Flickr30k和COCO上的结果分别展示在表2和表3中。与 Baseline 相比,LoRS增强了图像-文本蒸馏算法,并可能带来高达约50%的相对改进。有趣的是,在Flickr30k上,使用100对的LoRSwBCE显著优于使用500对的MTT Baseline ,显示了相似性挖掘技术的更大压缩比。值得注意的是,尽管LoRS改变了数据结构,但它只带来了可以忽略不计的0.3%的内存和0.8%的训练时间开销。关于效率的更多分析请参阅附录D.3节。并且在Flickr30k上的算法性能更为显著,因为COCO的数据量是Flickr30k的3倍,且具有更复杂的数据关系。###跨架构泛化

遵循MTT(Cazenavette等人,2022年),作者进行跨架构评估以研究合成数据的泛化能力。作者使用NFNet+BERT进行数据蒸馏,并使用其他网络(包括RegNet(Radosavovic等人,2020年)和ResNet50(He等人,2016年))进行评估。由于作者冻结了文本编码器,因此无需验证文本网络的泛化能力。表4中的结果显示,作者的蒸馏数据能够在网络之间进行泛化(显著超过表2中的核心集选择方法),并且优于 Baseline 模型。需要注意的是,性能下降也部分归因于架构本身的表现(例如,在完整数据上训练的ResNet或RegNet大约实现IR@1=28%和TR@1=22%,而NFNet实现大约IR@1=33%和TR@1=27%)。

Ablation Study

表5展示了消融研究的结果。

学习完整相似性矩阵(编号1-3)。 作者实现了具有完整可学习相似性矩阵的相似性挖掘(没有低秩技术,个参数)。完整的相似性挖掘与LoRS显示出可比较的性能,表明相似性矩阵的低秩近似是可行的。

损失函数(编号4-6)。 在损失函数中,略优于,而显著优于普通的,这主要归功于它们的平衡性。结合表2和表3中的比较,作者建议在LoRS中选择和之间的一个。

秩(编号7-11)。 只要不是太小,它对性能的影响很小,并且在这里是足够的。

低秩分解中的组分(编号12-13)。 移除低秩组分会降低性能,但仍然超过了使用单位矩阵的实验(编号13)。

表4:跨架构泛化。数据是与NFNET+BERT合成的,并在各种架构上进行评估。

表3:在COCO(Lin等人,2014年)上的结果。在完整数据集上训练的模型性能为:IR@1=16.9,IR@5=41.9,IR@10=55.9;TR@1=19.6,TR@5=45.6,TR@10=59.5。

固定图像或文本(编号14-16)。 在蒸馏过程中冻结图像或文本会大大降低数据性能,实验表明学习文本对于蒸馏更为关键。令人惊讶的是,在Flickr30k上,仅学习相似性矩阵的实验(编号16)可以超过随机模型。

来自预训练CLIP的相似性(编号17)。 作者不是_学习_一个相似性矩阵,而是直接使用预训练的CLIP计算相似性矩阵。然而,计算出的相似性矩阵并不适合被蒸馏的图像和文本,导致检索性能不佳。这一现象与数据蒸馏中的常见结论一致:适合网络训练的数据对人类来说可能并不自然。

Visualization

作者展示了Flickr30k数据集的200对合成图像、文本和相似性矩阵,以呈现蒸馏后的数据。

合成图像和文本。 图6展示了蒸馏前(初始)和蒸馏后的图像和文本。图像呈现出DeepDream风格(Zeiler和Fergus,2014),这在数据集蒸馏中是常见的。文本是通过在训练集中找到与蒸馏嵌入最接近的标题检索的,遵循(Wu等人,2023)的方法。附录E部分提供了更多示例。

学习到的相似性矩阵为了清晰起见,作者在图7中分别展示了对角线和残差矩阵。作者的方法倾向于学习较大的对角线值,因为它们是正样本对。LoRS还可以通过学习特定的相似度分数找到错误的负样本。作者在图8中可视化了一些具有不同合成相似度的样本对。LoRS分配了较大相似度值的样本从人类的视角看也是相似的(图中左三对,具有相似的人、背景等),而常规的CLIP模型会错误地将它们视为负样本对。

5 Conclusions

在本工作中,作者引入了低秩相似性挖掘(LoRS)作为图像文本数据集精炼的有效解决方案。LoRS同时利用图像文本对提炼出 GT 相似性矩阵,并借助低秩分解以提高效率和可扩展性。

作者的方法相较于现有算法显示出显著的改进。作者主张采用LoRS作为图像文本数据集精炼的基础合成数据设置。

参考

[1].Low-Rank Similarity Mining for Multimodal Dataset Distillation.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • Dataset Distillation
  • Image-text Contrastive Learning
  • 3 Methodology
  • Preliminary
  • Similarity Mining for Image-Text Distillation
  • Justification of Similarity Mining
  • Low Rank Similarity Mining
  • 4 Experiments
  • Dataset and Metrics
  • Baselines and Proposed Method
  • Implementation Details
  • Results
  • Ablation Study
  • Visualization
  • 5 Conclusions
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档