前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Diversity-Aware Meta Visual Prompting (CVPR 2023)

Diversity-Aware Meta Visual Prompting (CVPR 2023)

作者头像
BBuf
发布2023-08-25 08:35:14
6030
发布2023-08-25 08:35:14
举报
文章被收录于专栏:GiantPandaCV

Diversity-Aware Meta Visual Prompting (CVPR 2023)

1. 论文信息

标题:Diversity-Aware Meta Visual Prompting

作者:Qidong Huang, Xiaoyi Dong, Dongdong Chen, Weiming Zhang, Feifei Wang, Gang Hua, Nenghai Yu

原文链接:https://arxiv.org/abs/2303.08138

代码链接:https://github.com/shikiw/DAM-VP

2. 引言

随着深度学习的训练数据和模型参数量的不断扩大,pretraining-finetuning范式在自然语言处理 (NLP)和计算机视觉 (CV)等许多领域取得了显著成就。然而,为每个小型的下游任务来fine-tuning大的pre-train模型,在实际使用中仍然存在一些问题。最实际的一个是存储和分发问题,我们必须为每个任务维护一个独立的模型副本,这是非常昂贵和不灵活的,特别是对于越来越多的下游任务。为了克服这种窘境,之前的工作已经付出了许多努力,来有效地将给定的预训练模型转移到特定的数据集中。Prompting 是 NLP 领域广泛研究的方法,它在输入序列之前附加一些标记,为预训练模型提供一些特定于任务的知识,使模型无需完全微调即可很好地适应下游任务。受 NLP Prompt成功的启发,最近的一些工作提出了视觉模型的visual prompt。通过在输入图像上添加一些可学习的noise或将一些可学习的标记附加到模型输入序列,预训练模型在不同类型的下游任务上显示出有希望的结果。

然而,作者认为这些方法忽略了图像数据集的不同分布特性,并且对每个数据集中的所有图像使用单一的prompts并不是最佳的。在图 1 中,作者显示了提示增益与数据集多样性之间的关系。这里的增益表示与线性探测设置相比的精度改进。我们发现 VP和 VPT在低多样性数据集上都大幅提高了模型精度,但在高多样性数据集上的增益相对较小,这在直觉上是合理的。当涉及到高多样性数据集时,例如 ImageNet数据集,它涵盖了来自 wordnet 的非常多样化的类,并且类之间没有任何预定义的关系,因此很难使用 单一提示为所有图像提供先验信息,例如“car”和“dog”。

受此观察的启发,我们提出了我们的Diversity-Aware Meta Visual Prompting (DAM-VP)。提出的方法有两个核心设计。首先,为了为来自高多样性数据集的每张图像提供适当的prompts,作者提出了一种基于聚类的提示选择方法。具体来说,给定一个预训练的视觉模型和一个下游数据集,我们使用现成的聚类方法将下游数据的特征聚类成几个粗粒度的子集,并引导每个cluster分别学习自己的prompts。基于同一聚类数据的homogeneity,可以极大地方便针对聚类的视觉提示的优化,也可以很容易地覆盖数据的共性。其次,作者认为跨不同集群或数据集的提示可能具有一些共享模式,从中模型可以更快地适应新数据集并获得更好的性能。这促使我们引入一种基于元学习的方法,该方法学习元提示并用它初始化每个集群的prompts。

3. 方法

本文引入了Diversity-Aware Meta Visual Prompting (DAM-VP) 方法,该方法通过以无监督和自适应方式提取特定的原型,为每个子集分配特定的prompts,根据调整损失进行优化,然后通过在不同数据集中学习到的元提示进行初始化,从而适应不同的下游数据集。

3.1 Diversity-adaptive dataset partition

Diversity-adaptive dataset partition是提出方法的关键组成部分。它涉及将下游数据集划分为在数据多样性方面是同质的小子集。分区以多样性自适应方式执行,这意味着子集是根据数据样本特征表示的相似性创建的。具体而言,聚类是使用阈值执行的,该阈值根据每个子集的数据多样性进行动态调整。然后为每个子集分配自己的提示符,并分别对其进行优化。这种分而治之的设计降低了优化难度并提高了prompts发挥作用的性能。

c_i=\frac{1}{\left|\mathcal{S}_i\right|} \sum_{s \in \mathcal{S}_i} \mathcal{M}(s), \quad i=1, \cdots, N

该方程计算下游数据集的每个子集的质心,以

S_i

表示,其中

i

的范围从 1 到

N

。以

c_i

表示的质心是计算子集中所有样本的特征向量的平均值,由

M(s)

表示,其中

s

是子集中的样本。在inference期间,根据输入和每个子集之间的特征距离,为每个输入选择相应的prompts。

3.2 Diversity-aware prompt selection

在推断期间,根据输入和每个子集之间的特征距离,为每个输入选择相应的prompts。具体而言,要素距离是使用输入要素与每个子集的平均要素之间的余弦相似度计算的。为输入选择具有最小要素距离的提示符。考虑到下游数据集的数据多样性,这种具有多样性意识的提示选择策略可确保为每个输入使用最合适的prompts。

x^p \triangleq x+p_t, \quad \text { s.t. } \quad t=\arg \min \left\|\mathcal{M}(x)-c_i\right\|_2^2 .
3.3 Prompt learning

即时学习是优化一组Prompt 的过程,这些提示引导预先训练的视觉模型在下游任务中表现出色。在拟议的多样性感知元视觉提示 (DAM-VP) 方法中,使用多样性自适应数据集分区针对下游数据集的每个子集分别对提示进行优化。优化是通过最大限度地减少数据样本的预测标签和基本真值标签之间的交叉熵损失来实现的。提示使用元提示进行初始化,该元提示是使用快速元学习算法在多个数据集中学习的。元提示符初始化可帮助提示更快地收敛并在新数据集上表现得更好。

引导范式是使用在多个数据集中学习的元提示符初始化提示符的过程。关键思想是,从先前的数据集中学到的提示知识可以帮助提示者更快地收敛并在新数据集上表现得更好。元提示符是使用快速元学习算法来学习的,该算法优化了一组元任务的提示。在初始化新数据集的提示时,会对新数据集的元提示进行微调,以适应其特定的数据分布。这种自举范例通过提供良好的初始化来帮助提高新数据集提示的收敛速度,该初始化已经针对类似任务和数据分布进行了优化。

3.4 Prompt boosting via Meta-learning

在实际使用中,需要将frozen模型 M 转移到一堆下游任务,这导致提示方法具有两个所需的有利属性。首先,它应该是高效的,只需几个 epochs 的调整就能得到好的结果。其次,从以前的任务中学到的提示可以帮助新任务学习更好的提示,从而引导该方法。因此本文采用了meta-learning的模式:

\begin{array}{ll} & p_j^m=p_{j-1}^m-\eta \nabla_{p_{j-1}^m} \frac{1}{\left|\mathcal{B}_j\right|} \sum_{x \in \mathcal{B}_j} \mathcal{L}_j^m, \\ \text { s.t. } & \mathcal{L}_j^m=\mathcal{L}_{C E}\left(\mathcal{M}\left(x+p_{j-1}^m\right), y\right), \end{array}

也就是用meta-learning把这个任务分解成一个个的小任务。

p^m \leftarrow p^m+\gamma \frac{1}{K} \sum_{j=1}^K\left(p_j^m-p^m\right),

更新p的范式也是EMA的模式。这样可以使得模型学习更加灵活。

4. 实验

本文使用各种下游数据集来评估拟议的多样性感知元视觉提示(DAM-VP)方法。论文中提到了实验中使用的特定数据集,包括 CIFAR-10、CIFAR-100、ImageNet 等。该论文还使用预先训练的模型,例如 ViT 和 ResNet 进行迁移学习。

在head缺失的场景中,硬编码的映射方法不足以将预先训练好的模型传输到下游任务,因为它需要提前知道头部架构,并且需要为每个下游任务手动设计映射。这种方法不可扩展,可能无法很好地推广到新的任务或架构。为了克服这一限制,DAM-VP 提出了一种视觉提示方法,该方法优化了一组提示,以指导预训练的模型在使用冻结骨干的下游任务中表现出色。这些提示是使用数据集分区策略以适应多样性的方式学习的,并使用自举范式在多个数据集中学习的元提示符进行初始化。这种方法比硬编码映射更灵活、更具可扩展性,并且可以适应各种下游任务和架构。

基于大量实验,与之前的提示方法相比,DAM-VP 在不同的预训练模型和下游数据集上表现出了卓越的效率和有效性。结果表明,DAM-VP 在包括图像分类、对象检测和语义分割在内的多项下游任务上取得了最先进的性能。作者还指出了所提出的方法的一些局限性,例如比以前的方法引入了更多的视觉提示,这在适应过程中参数效率可能较低。但是,作者认为,DAM-VP引入的提示数量是合理的,可以在未来的研究中进一步优化。总体而言,拟议的DAM-VP方法显示出令人鼓舞的结果,并为未来的视觉提示研究开辟了新的途径。

5. 讨论

对于本文的结论,本文讨论了提出的Diversity-Aware Meta Visual Prompting(DAM-VP)方法的局限性。提出了两个方面的担忧:

  • 与之前的视觉提示 (VP) 方法相比,DAM-VP 引入了更多的视觉提示,后者在适应过程中似乎参数效率较低。但是,DAM-VP引入的提示量是合理的,在10个数据集上,Vit-b-22k的平均提示量约为25个。
  • 本文没有讨论DAM-VP的潜在社会影响。显然,探索更有效和高效的视觉提示方法可以极大地有利于当今庞大的预训练模型对下游任务的适应。视觉提示为提高预训练视觉模型的迁移学习性能提供了一个新的视角。至少在应用方面,具有大容量和能力的预训练模型能够在工业界和学术界轻松重新编程是至关重要的。

在论文中,作者提出了几部与多样性感知元视觉提示(DAM-VP)方法相关的未来研究方向,包括:

  • 研究不同的元提示符初始化方法对 DAM-VP 性能的影响。
  • 探索在计算机视觉以外的其他领域使用 DAM-VP 的潜力,例如自然语言处理。
  • 研究 DAM-VP 对看不见的数据分布的泛化能力及其对抗攻击的稳定性。
  • 为 DAM-VP 开发更有效和可扩展的算法,以处理更大的数据集和模型。
  • 将 DAM-VP 应用于现实世界的应用,例如医学图像分析和自动驾驶。

这些未来的工作可能会进一步提高 DAM-VP 在各种场景中的性能和适用性。

6. 结论

本文提出了一种名为Diversity-Aware Meta Visual Prompting(DAM-VP)的新方法,用于将预先训练的视觉模型转移到具有freeze backbone的下游任务。本发明提出的方法通过使用多样性自适应数据集分割和即时选择来解决下游任务适应中的数据多样性问题。提示由通过快速元学习算法进行学习的元提示符初始化。实验表明,在头部冻结/失踪和头部调整情况下,DAM-VP 的性能都优于以前的提示方法。本文得出的结论是,DAM-VP 是处理下游任务中数据多样性的有效提示方法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GiantPandaCV 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Diversity-Aware Meta Visual Prompting (CVPR 2023)
    • 1. 论文信息
      • 2. 引言
        • 3. 方法
          • 4. 实验
            • 5. 讨论
              • 6. 结论
              相关产品与服务
              NLP 服务
              NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档