前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PRM 与 HRM 双剑合璧 | 增量式 Vision Transformer 的参数有效跨任务提示 !

PRM 与 HRM 双剑合璧 | 增量式 Vision Transformer 的参数有效跨任务提示 !

作者头像
AIGC 先锋科技
发布2024-07-20 10:19:18
580
发布2024-07-20 10:19:18
举报
文章被收录于专栏:AIGC 先锋科技

增量学习(IL)旨在连续地对序列任务学习深层模型,其中每个新任务包含一批新类别,而在推理时深层模型无法访问任务ID信息。最近庞大的预训练模型(PTMs)通过提示技术在实际的IL中取得了卓越的性能,无需旧样本(无需复习)并且在内存受限(内存受限)的情况下:提示扩展和提示固定方法。 然而,提示扩展方法需要一个大的内存缓冲区来维护不断扩大的提示池,并解决额外的提示选择问题。提示固定方法仅在其中一个增量任务上学习一组提示,并且不能有效地处理所有增量任务。 为了在内存成本和所有任务上的性能之间取得良好平衡,作者提出了一个参数高效的跨任务提示(PECTP)框架,包括提示保持模块(PRM)和分类器头保持模块(HRM)。 为了使最终学习的提示对所有增量任务都有效,PRM从外部提示粒度和内部提示粒度约束跨任务提示参数的演变。此外,作者采用HRM来继承以前学习的分类器头中的旧知识,以促进跨任务提示的泛化能力。 源代码将在https://github.com/RAIAN08/PECTP提供。

I Introduction

深度模型已经在解决各种单独的机器学习任务上取得了卓越的性能。然而,在实际应用中,训练数据通常是顺序接收的,而不是一次性全部可用。因此,为深度模型装备在动态环境中学习的能力是深度学习(DL)的一个长期目标。增量学习(IL)涉及跨不同任务动态学习深度模型,并且经常遭受对先前学习任务性能下降的问题,这被称为灾难性遗忘(CF)。最近,基于排练的方法可以通过在固定内存缓冲区中保留一些旧任务的代表性样本(即示例)有效地减轻IL中的遗忘。然而,在严格保护隐私和内存严重受限的情况下,这些方法无法奏效,因为旧任务的样本不可用,且内存缓冲区有限。在本文中,作者专注于无需示例和内存严重受限的增量学习(RFMCIL)的策略,该策略无需示例并且在内存严重受限的情况下训练深度模型。

图1:使用预训练模型的不同最先进的增量学习方法比较。X轴表示可学习参数的总数,Y轴表示平均准确度。

使用预训练模型(PTMs)的增量学习的最新进展已经引起了广泛关注。这些方法旨在解决类增量学习(CIL),这是IL中一个具有挑战性的设置,其中每个按顺序的新任务引入新的类别,同时在推理期间保持任务ID未知。图1展示了使用PTMs进行增量学习的研究进展。SimpleCIL [5]提出直接使用PTM进行下游增量学习推理,同时采用原型分类器头。另一方面,SLCA [6]通过为特征提取网络参数和分类器头参数采用不同的学习率来完全微调PTM,以有效地减轻遗忘问题。因此,这两种方法分别被认为是使用PTMs的增量学习方法性能的下界和上界。然而,SimpleCIL和SLCA各自面临着关于性能和开销的问题。此外,被称为基于提示的增量学习(PIL)的一类方法在RFMCIL中已经取得了巨大成功。具体来说,这些方法通过参数高效微调技术(PEFTs),例如提示[7],在预训练数据与顺序增量任务数据之间架起桥梁。鉴于实际IL中的隐私关注和内存限制,可调整的提示使得冻结的PTM能够有效地适应不同的任务[8]。

现有的PIL方法主要关注如何利用提示,可以简要分为两类:提示扩展[9, 10, 11]和提示固定方法[5, 8]。提示扩展方法需要在训练过程中维护一个不断扩大的提示池,以存储每个任务特定的提示集,并在推理过程中从池中选择合适的提示集。具体来说,在训练过程中,当一个新任务到来时,会初始化一个新的特定于任务的提示集,并专门训练它,目的是指导PTM有条件地执行当前增量任务。之后,这组提示被存储在一个随着增量任务顺序添加而不断扩大的提示池中。在推理过程中,采用提示选择策略首先预测每个测试样本所属的任务ID,然后选择相应的提示集进行进一步推理。然而,不断扩展提示池可能导致内存成本增加,这在RFMCIL中是不可行的(如图1(a)所示,存在开销问题)。此外,提示选择策略不仅增加了额外的计算成本,还在建模不同增量任务提示之间的关系时遇到困境(如图1(b)所示,存在选择问题)。

另一项工作,提示固定方法,仅学习一组提示,专门用于整个增量任务中的一个(将学习的任务视为关键任务),并冻结提示中的参数以直接对剩余的增量任务进行推理。尽管提示固定方法可以有效地节省内存成本,但单个关键任务的知识有限,使得一组提示难以指导PTM在后续的增量任务上表现良好。这在实际的IL中尤为明显,因为增量任务高度多样化,使得单个关键任务难以充分代表整个增量任务的范围。

受到上述分析启发,作者旨在在RFMCIL中实现一个高效且有效的基于提示的方法。关键点是学习一组单一但有效的提示,它不仅绕过了选择问题,还指导PTM在关键任务和所有增量任务上都能表现出色。

在本论文中,作者提出了一个参数高效跨任务提示(PECTP)框架,这是一种基于提示的无需复习和受限记忆增量学习方法。PECTP旨在平衡效率(提示带来的参数成本)与有效性(提示在不同增量任务中的有效性)之间的权衡。作者的PECTP框架仅学习一组单一但跨任务的提示,这些提示在所有增量任务中动态更新,以不断从每个增量任务中获取知识并将其整合到跨任务提示中。具体来说,作者提出了一个提示保持模块(PRM),使这些提示在已学习的增量任务上有效。PRM从两种粒度限制跨任务提示参数的演变:外提示粒度(OPG)和内提示粒度(IPG)。OPG通过正则化基于提示的PTM的输出特征来限制提示的参数演变。IPG通过正则化提示参数本身来限制提示参数的变化。最终学习到的单一提示集不仅在参数开销方面高效,而且通过整合来自每个增量任务的知识,有效地指导PTM在各类增量任务上表现更佳。此外,作者还提出了一种名为分类器头保持模块(HRM)的分类器头更新方案,它进一步增强了跨任务提示的泛化能力,继承了旧任务的知识。

所提出的PECTP框架的核心贡献可以总结如下:

  • 作者在PIL方法中总结了提示扩展和提示固定方法,并为RFMCIL提出了PECTP框架,该框架在整个增量任务上仅学习一组单一但跨任务的提示。
  • 作者设计了一个新颖的PRM来限制跨任务提示的演变,使其在已学习的增量任务上有效,以及一个HRM来继承旧知识,进一步促进提示的泛化。
  • 在基准数据集上的大量实验证明了PECTP在性能和内存成本方面相对于现有PIL方法的有效性。

II Related Work

Typical Incremental Learning

图2:提示扩展方法面临两个方面的担忧。随着增量任务的不断增加,可学习参数逐渐增加(开销问题)。同时,随着推理会话的进行,提示选择的准确性变得越来越低(选择问题)。

已经探索了众多方法来提高抵抗灾难性遗忘的能力。这些方法大致可以分为三类: 基于复习的, 基于正则化的,和 基于架构的。复习方法在训练新任务的同时明确地对一组示例进行再训练。这些示例可以通过两种方式获得:存储来自先前任务的老样本或使用生成模型生成。前者面临数据不平衡问题,并提出了不同的选择老样本的方法,如herding,Coreset选择,和代表性抽样[32]。后者主要面临如何很好地恢复先前任务原始数据分布的生成样本问题,以及训练生成模型的额外复杂性,这增加了开销。基于正则化的方法避免了存储原始输入,优先考虑隐私并减轻内存要求。相反,这些方法通过设计复杂但复杂的正则化项在新旧任务之间取得平衡。然而,由正则化项引入的软惩罚可能不足以限制优化过程停留在先前任务的可行区域内,特别是对于长序列[46]。基于架构的方法通过扩展网络或限制对先前任务重要参数的学习率,为每个任务隔离深度模型内的组件。然而,这些方法中的大多数在推理时需要任务ID,这对于具有挑战性的持续增量学习(CIL)并不适用。相比之下,作者的PECTP方法不仅在推理时不需要依赖任务ID,而且引入的附加参数数量可以忽略不计。

Prompt-based Incremental Learning

近期,基于提示的增量学习(PIL)方法因其利用了PEFT技术来利用预训练模型(PTMs),实现了无需复述的出色性能。这些方法遵循VPT[7]使用提示,通常可以分为两类:提示固定和提示扩展。提示固定方法在单个增量任务上进行有意识的学习时使用一组提示,并在后续任务中保持这些提示不变(例如,ADAM-VPT-Shallow和ADAM-VPT-Deep[5])。相比之下,提示扩展方法不断为每个增量任务学习一组新的提示,将它们累积在一个不断扩大的提示池中。在推理时,它们设计了不同的提示选择机制来预测每个测试样本的适当提示集。其中,DualPrompt[9]提出将任务知识分为通用和特定类别,并分别使用g-提示和e-提示来学习。同样,S-Prompt[10]通过利用视觉-语言模型(VLMs)来进一步提高学习能力,解决了领域增量学习(Domain-IL)。CODA-Prompt通过为每个新任务添加新的提示、键和 Mask 来避免遗忘,同时冻结之前的提示,并采用注意力机制为推理分配提示集的子集。

尽管上述方法表现出高性能,但它们在应用于无需复述和受内存限制的增量学习(RFMCIL)时遇到了困难。特别是,提示固定方法面临性能挑战。由于引入的可学习提示仅在单个增量任务上进行训练,其有限的代表性能力使得它们难以对PTM提供足够的指导。同时,提示扩展方法中不断增长的提示池和提示选择机制分别可能导致内存开销增加和额外的计算成本,使它们不适用于实际的增量学习。相反,PECTP不仅通过只维护一组提示来绕过了存储和选择的问题,而且还能有效地指导PTM跨所有增量任务。这三种方法的比较如图3所示。

III Prerequisite and Motivation

Rehearsal-Free and Memory-Constrained Incremental Learning

形式上,增量学习(IL)旨在对包含新类别的一系列顺序任务学习深层模型。作者将任务序列表示为 ,其中 是对应于具有 训练样本的任务的训练数据。这里,每个输入样本 属于类别 ,其中 是任务 的标签空间。任务之间没有重叠的类别(即,如果 ,则 )。灾难性遗忘问题之所以出现,是因为深层模型只在当前任务上进行训练,并在所有学习过的任务上评估(所有遇到的类别都表示为 )。在无需排练且内存受限的增量学习(RFMCIL)中,内存缓冲区是有限的,当学习当前任务时不能重放之前任务的样本。一个深度图像分类模型表示为 ,其中 是具有权重 的特征提取器, 是具有权重 的分类器头。在学习任务 之后,目标是在内存约束下学习一个能对 表现良好的 。最近的基于提示的增量学习方法[8]利用具有强大表示能力的预训练模型(PTM),如Vision Transformer(VIT),作为 的初始化。

Pre-Trained Model with Prompt Learning

预训练模型面临预训练数据与下游数据之间的领域差距问题。提出了参数高效微调(PEFTs)技术,例如提示,以解决此问题,目的是指导PTM有条件地执行,例如视觉提示调优(VPT)[7]。

因此,给定一个冻结的预训练VIT模型和一个可学习参数集,即提示。作者用可调提示的VIT模型:表示为,表示下游任务的所有数据(联合训练)。目标函数是下游任务上的分类损失,定义如下:

其中是二元交叉熵损失,表示分类器 Head 的参数,表示在序列长度维度上的拼接。联合训练被认为是深度模型在增量学习中的上限。

Prompt-based Incremental Learning 2024-07-10-03-34-16

如图3所示,基于提示的增量学习方法主要有两种不同的流程:提示扩展和提示固定IL方法。

提示扩展IL方法针对任务序列,在训练过程中维护一个提示池。在学习任务之前,将初始化一组新的提示:。针对任务,通过以下损失函数故意学习特定任务的提示:

其中是带有可调提示的VIT模型,为简便起见,用表示。是与任务对应的分类器头。是来自任务的相应训练数据。在推理过程中,采用选择策略为每个测试样本选择合适的提示:

提示扩展IL方法从两个角度引发关注:(1)不断增加的容量导致RFMCIL失败;(2)提示选择策略的设计对性能有重大影响。如图1(b)所示,在推理过程中,作者计算了每个会话期间的提示选择平均准确度。随着推理会话的前进,准确度明显下降,导致性能不佳。

提示固定IL方法提示固定IL方法仅在全部增量任务中的一个任务(即关键任务,在没有先验知识的情况下,通常是第一个增量任务[5])上学习单一提示集,使用以下分类损失:

其中是带有单一可调提示集的VIT模型,是与任务对应的分类器头。在关键任务上训练后,中的参数被冻结并与合并,共同构成。将直接用于其余任务的推理。由于对应于任务的分类器头尚未经过训练,因此使用原型头方法对剩余任务的分类器头进行非参数更新[63]。单一提示集不会面临提示选择问题,并且在任务数量增加时不会增加额外的可学习参数,因此仍然是“存储友好”的。然而,即使是在所谓的“关键任务”上进行训练,它也无法泛化到所有增量任务。此外,第V-E0c节的实验结果表明,由于学习每个增量任务的难度很大,仅在一个任务上进行训练是远远不够的。

基于以上分析,作者提出了一种简单但有效的方法:只学习单一但跨任务的提示集。只有一个提示集可以作为绕过提示选择问题的直接解决方案。此外,提示不仅仅是从关键任务中学习,而是包括所有增量任务。此外,所设计的PRM确保连续训练不会导致忘记与先前任务相关的提示。施加在分类器头上的HRM可以进一步增强跨任务提示的泛化能力。

IV Prompt-based IL with Parameter-Efficient Cross-Task Prompt

在本节中,作者详细介绍了PECTP,它可以使单一提示集高效地指导PTM在整个增量任务上有效执行(如图4所示)。由于实际IL中的内存限制,PECTP仅使用一组提示,而不是采用不断扩展的提示池。为了让这些提示在所有增量任务上具有泛化性,PECTP在每个增量任务上更新提示,而不仅仅是在关键任务上。然后,当前任务上的分类损失定义如下:

其中,由和单一提示集构成,是与任务对应的分类器头。为了简单起见,作者使用上标表示该单一提示集是在任务上训练的。

使单一提示集在当前任务上有效。然而,如果在的参数上没有施加任何约束,它将在当前任务上表现良好,但同时会忘记与之前任务相关的知识,导致在已学习任务上的性能下降。

为了使这些提示在之前学习的任务上也有效,作者提出了一个提示保持模块(PRM)。PRM限制从OPG(第IV-A节)和IPG(第IV-B节)跨任务提示参数的演变。为了进一步提高跨任务提示的泛化能力,作者在分类器头上施加HRM,以继承从已学习任务中的旧知识(第IV-C节)。

PRM from Outer Prompt Granularity

作者的PRM限制了从外部提示粒度(OPG)提示参数的演变,这规范了基于提示的PTM的输出特征。在OPG中,作者引入了一组提示约束,不仅针对最终输出特征,而且针对每个Transformer块的中介输出特征。

作者将每个Transformer块表示为中的,,第个Transformer块的输入特征表示为。第个Transformer块的输出可以表述如下:

其中是输入特征,表示cls_token,表示序列长度为和嵌入维度为的输入图像的嵌入,表示长度为的提示。

图4:PECTP框架的一个架构。在学习任务时,一个训练样本分别由和处理,以提取图像特征和。在这种情况下,使用一组固定的提示,而采用一组可学习的提示。PRM在,,和(OPG)上应用从外部提示粒度的约束。此外,PRM直接在单组提示的参数上施加约束(IPG)。而且,HRM从之前学到的特定于任务的分类器头中转移知识来初始化任务的分类器头。

在学习第个增量任务时,作者将模型中每个Transformer块的输出特征表示为,。同时,模型也可以从每个Transformer块提取特征,相应的输出特征表示为,。OPG将对聚合特征施加约束,可以表述为。的每个元素可以表示为,其中代表块,分别代表 Patch 和维度轴。

为了将提示参数近似于中的参数,作者旨在使生成的输出特征与生成的特征相似。一个简单的实现方法是确保两个模型在每一个特征维度(逐点)生成的输出特征是相同的。作者将相应的损失称为:

其中是与之间的逐点代表性偏移。然而,每个 Transformer 块生成的部分特征对最终预测来说重要性不强,甚至无关[64, 65]。可能导致难以捕获真正重要的特征,这会使在学习任务中产生退化。此外,极端的限制可能会破坏从当前任务中获得新知识的灵活性。为了解决这个问题,作者提出了一组对原始输出特征的统计分布的软约束。包括块、 Patch 和维度轴。然后作者提出通过以下平均池化操作从这三个轴获取的分布知识:

在块轴上池化,计算来自不同块的输出特征分布:

其中是与之间的块代表性偏移。

在 Patch 轴上池化,计算来自不同位置的输出特征分布:

其中是 Patch 代表性偏移。

在维度轴上池化,可以从块和位置计算输出特征分布:

其中是维度代表性偏移。

在获得了原始输出特征的分布后,作者使的分布信息近似于的分布信息。这种分布 Level 的约束可以被视为一种软约束形式,有效地缓解了防止模型从当前增量任务中学习新知识的硬约束。通过这些OPG软约束,可以在学习新任务知识和保持旧任务知识之间找到一个最佳的平衡点。

PRM from Inner Prompt Granularity

作者的PRM通过内部提示粒度限制了提示参数的变化。具体来说,在学习第个增量任务时,中的提示应保留在中学到的提示知识,并获得当前任务的知识。为了使在任务上有效,作者在和之间引入了一个内部提示粒度损失:

其中,总提示可以表示为。的每个元素可以表示为。

HRM on the Classifier Head

通过VIT提取的特征需要通过一个分类器头映射到分类空间,如下所示:

其中 表示分类器头的参数。

基于提示的IL方法通常学习一个统一的分类器头 。随着增量任务的添加, 将持续扩展。因此,为了进一步增强跨任务提示的泛化能力,作者提出了一个分类器头保留模块。具体来说,作者将任务 上训练的分类器头参数 划分为 , ,..., 。这里, 表示任务 的分类器头及其对应信息的参数。之前的 , ,..., 被冻结以避免灾难性遗忘。在学习任务 时,为了有效地保留之前任务的知识,当前分类器头用所有先前分类器头的加权组合进行初始化:

其中 是一个超参数,它控制从每个任务继承旧知识的强度,以帮助 学习当前任务。

Full Optimization

作者的模型通过三部分损失进行训练: 分类损失 ,用于在当前增量任务上学习的二元交叉熵, PRM中的内部提示粒度损失 ,用于规范提示参数本身,以及 PRM中的外部提示粒度损失 ,通过规范基于提示的PTM的输出特征来限制提示参数的演变。总损失为:

其中 和 是两个超参数,用于在学习新任务知识和保留旧任务知识之间保持平衡。

作者在算法1中提供了PECTP的伪代码。在学习任务时,PECTP将退化为ADAM-VPT-Deep,这保证了性能的下界。与ADAM-VPT-Deep不同,PECTP将在每个增量任务(从任务到任务)上训练单一提示集,从而不断从新任务中积累知识。损失函数 和 在保留旧知识与新知识积累之间平衡折衷。

算法1 作者的PECTP框架对PIL[5]进行重新实现,以与其他比较方法结合VIT,即ADAM-Finetune、ADAM-VPT-Shallow、ADAM-VPT-Deep、ADAM-SSF和ADAM-Adapter。作者的PECTP基于ADAM-VPT-Deep,并使用[5]中相同的超参数(例如,学习率、周期、权重衰减、提示的数量)。作者使用在ImageNet21K上预训练的PTM VIT-B/16-IN21K。按照[8],作者为所有方法使用相同的数据增强,即随机调整大小裁剪和水平翻转。输入图像在送入模型之前被调整为。按照[3],所有类别在使用Numpy随机种子1993随机打乱后,再分为增量任务。此外,PECTP中的PRM使用超参数和来保持学习新任务知识与保留旧任务知识之间的平衡。对于CIFAR,作者采用;对于CUB,;对于IM-R,;对于IM-A,;对于ObjNet,;对于Omni,;对于VTAB,。

评估协议作者采用了两种增量学习的评价指标,包括最终平均准确度()和累积平均准确度(),以评估在学习每个新的增量任务后对所有已见过类别的性能。具体来说,作者将学习第个任务后在第个任务上的准确度定义为,并以下面方式定义最终平均准确度:

同样,累积平均准确度定义如下:

是评估增量学习最终性能的主要指标,进一步反映了历史性能。作者进一步提供了七个基准上的结果,包括平均值和标准差(括号内),以验证作者方法的有效性。此外,如图1(b)所示,作者还通过比较提示扩展方法选择的提示集与 GT 提示集,计算了在每个增量任务训练后的提示选择准确度。

Comparison to Previous Methods

主要结果作者与近期基于提示的增量学习方法进行了比较:L2P [8],DualPrompt [8],CODA-Prompt [11],SimpleCIL [5],以及ADAM [5]。ADAM有不同变体,采用了各种适应技术(即,ADAM-Finetune,ADAM-VPT-Shallow,ADAM-VPT-Deep,ADAM-SSF,ADAM-Adapter)。DualPrompt和CODA-Prompt是提示扩展方法。L2P,ADAM-VPT-Deep,ADAM-VPT-Shallow和作者的PECTP是提示固定方法。

作者在表1a和表1b上展示了这些方法在七个数据集上的性能。在典型的增量学习数据集CIFAR,CUB和IM-R上,作者的方法在上分别达到了88.09%,84.69%和70.28%,分别比 Baseline ADAM-VPT-Deep高出3.14%,1.81%和3.51%。在具有挑战性的IM-A和ObjNet数据集上,作者的方法在上达到了54.66%和58.43%,分别比ADAM-Adapter高出5.09%和3.19%。在Omni和VTAB数据集上,作者的方法的分别比DualPrompt高出了9.02%和5.00%。

压力测试在长期连续任务的背景下进行学习一直被认为是增量学习中更具挑战性的设置。如图1(a)和图1(b)所示,提示扩展方法不仅在增量会话期间面临存储困难,这些会话变得极其长,而且在提示选择上也存在困难。相比之下,PECTP只维护一组提示,可以绕过提示选择问题。表2的结果表明,尽管PECTP与提示扩展方法相比可学习参数较少,但它仍然可以在一些极端任务(长期序列学习任务)中表现良好。

Ablation Experiments

在第V-A节中描述的PRMAs影响下,作者选择ADAM-VPT-Deep [5]作为PECTP的 Baseline 。作者进行了实验来验证作者的PRM(OPG和IPG)的有效性。如表3所示,在CIFAR、CUB、IM-R和IM-A数据集上,IPG和OPG都能提高 Baseline 的性能。当同时利用OPG和IPG时,作者的方法取得了最高性能,说明对于保持提示中的旧任务知识,这两种粒度是必要且互补的。此外,作者还增加了一个 Baseline ,称为PlainCIL,它在训练当前任务时对提示没有限制,只使用。如第IV节所述,提示容易忘记与前一个任务相关的知识。因此,PlainCIL的性能甚至比SimpleCIL还要差。

表4:在CIFAR和IM-R上不同分类头实现方式的影响。

HRM的影响HRM用所有先前分类头的加权组合来初始化当前的分类头。作者探讨了不同的初始化方法对实验结果的影响:(1)用零初始化(zero-Init),(2)用先前学习的分类头初始化(old-Init),这是PECTP的默认设置,(3)用均匀分布初始化(uniform-Init)和(4)用Kaming初始化(kaming-Init)。表4的结果表明,分类头也封装了旧任务与新任务之间的关系。分类头的不同初始化方法对性能产生了显著影响。PECTP中提出的HRM有效地从旧任务转移了与新任务相关的知识,并促进了新任务的学习。

Overheads

为了验证作者PECTP框架的计算效率,作者选择了四个指标来比较PECTP与其他 Baseline 方法:提示数量、可学习参数、训练时间和选择时间。

提示数量在现有的基于提示的增量学习方法中,"提示"的描述指的是一组提示而不是单个提示。例如,在L2P中,,其中是单个提示的数量,每个存储在一个提示池中。因此,对于L2P,提示的总数量是“提示的数量”。此外,当前使用PTMs的增量学习方法遵循VPT [7]进行提示,它有两个变体:VPT-Deep和VPT-shallow。例如,在DualPrompt [8]中,e提示:被插入到VIT编码器的3-5层中,而g提示:被插入到VIT编码器的1-2层中。因此,对于DualPrompt,提示的总数量是:“e提示的数量”“插入的层数” + “g提示的数量”“插入的层数”。从表5的结果中,作者观察到L2P、DualPrompt和CODA-Prompt的提示总数约为PECTP的10、44和72倍,但PECTP在上超过了所有这些方法。

图5:PECTP相对于每个任务的 Baseline 的详细改进。x轴表示每个增量任务。除了ADAM-VPT-Deep,作者还展示了PlainCIL和SimpleCIL的结果。

图6:针对任务中的每个类别,在CIFAR数据集上,通过固定提示方法、扩展提示方法和PECTP获得的特征的T-SNE可视化。

可学习参数除了提示数量之外,还采用了另一个指标。可学习参数(LP)分为两部分:提示和键。对于L2P,每个提示都配有一个提示键并进行联合训练。在这每次推理会话中,使用这组提示键,解决了提示选择问题。DualPrompt与L2P类似,区别在于它需要为每组'e-提示'增加一个提示键,而'g-提示'不需要此增加。在CODA-Prompt中,'组件权重'的计算不仅为每个提示组增加了一个额外的提示键,还引入了'关注 Query '的概念,以进一步细化针对不同测试样本的提示关注。因此,它们还需要为每个提示组添加一个'注意力向量'。在PECTP中,作者只需要维护一组提示,显著减少了可学习参数的开销。在表5中,PECTP在学习最后一个增量任务后实现了最高的性能和最低的可学习参数。CODA-Prompt的结果与PECTP接近。然而,PECTP所需的参数大约仅为CODA-Prompt的5%。此外,为了展示PECTP的可扩展性,作者引入了三个增加了提示数量的变体,分别为PECTP-L2P、PECTP-Dual和PECTP-CODA。这三个变体具有与L2P、DualPrompt和CODA-Prompt相当的可学习参数数量,但在性能上却超过了所比较的方法。最后,作者为CIFAR Inc10设置提供了上限,结果显示PECTP-C与上限之间的差距非常小。所有结果表明,作者的PECTP框架能够在IL性能和内存成本之间取得良好的平衡。

训练时间与选择时间作者对PECTP和基准方法在一个训练周期内的时间成本进行了详细分析,将其称为训练时间(TT),以及用于提示选择的时间,称为选择时间(ST)。如表格V所示,除了ADAM-VPT-Deep之外,PECTP与其他方法相比具有最短的训练时间。然而,ADAM-VPT-Deep与PECTP相比,在性能上存在显著差距。此外,由于PECTP只需要维护一组提示,有效绕过了提示选择问题,这一步骤的时间成本为0。这进一步强调PECTP作为一种参数高效的方法,不仅减少了可学习参数,还加速了训练和推理过程。

Detail Analysis

真实增益超过PTMs由于PTM在ImageNet上进行预训练,因此在一定程度上存在数据泄露,预训练数据与下游增量任务的训练数据之间存在部分数据重叠。遵循[5],作者为基于提示的IL方法引入了一种新颖的 Baseline ,称为SimpleCIL。具体来说,SimpleCIL直接在增量任务上执行,无需任何提示或微调。结果可以在表1a的第七行和表1b的第四行中找到,证明PECTP在七个基准测试中一致优于SimpleCIL,尤其是在没有数据重叠的情况下。

每个任务的增益图4(a)和图4(b)展示了每个任务的详细准确度。在这里,作者提供了PECTP与ADAM-VPT-Deep在两种实验设置下的比较。由于PECTP在每个增量任务上进行训练,因此它在所有增量任务上均一致超过ADAM-VPT-Deep。此外,作者还提出了PlainCIL,在学习新任务时没有施加任何限制。结果进一步证明,所提出的PRM和HRM在学习新任务时有效减少了旧知识的遗忘。

跨任务提示的有效性相比于使用关键任务提示的固定提示方法,作者的方法

图7:在CIFAR和IM-A上,L与PECTP之间的结果。

此外,作者使用T-SNE可视化提取的特征。如图6所示,通过固定提示方法提取的特征不足,导致分类边界模糊(蓝色框)。与此同时,与固定提示方法相比,提示扩展方法尝试更好地将类别与类别区分开来。然而,在类别内部进行更精细的区分时,出现了明显的特征混合。相比之下,PECTP保持了清晰的分类边界。

VI Conclusion

在本文中,作者提出了针对无复习和记忆受限增量学习(RFMCIL)的参数高效跨任务提示(即PECTP)。首先,作者对基于提示扩展和固定提示的方法进行了详细分析。为了解决固定提示方法性能的问题,作者建议不仅在第一个(或关键任务)增量任务上,而且在每个任务上都训练引入的提示,以不断获取新知识。

为了解决提示扩展方法面临计算开销和参数存储问题,作者 Proposal 使用单一但高效的提示集,从而避免维护提示池并从多组提示中选择。

PECTP利用PRM限制跨任务提示在OPG和IPG中的参数演变,这可以有效地在学习新增量任务后保留提示所学的知识。此外,作者还提出了HRM以促进跨任务提示的泛化。

作者对作者的方法和其他基于提示的方法进行了广泛评估,证明了作者方法的有效性。由于PECTP使用了单一的提示集,因此在面对下游任务时,其性能本质上受到限制,尤其是当任务差异显著时,如跨越领域和模态的任务,或数据分布极度不平衡的任务。

将提示扩展方法灵活地与PECTP结合,并在它们之间动态选择,将是作者未来探索的方向。

参考

[1].PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Related Work
  • Typical Incremental Learning
  • Prompt-based Incremental Learning
  • III Prerequisite and Motivation
  • Rehearsal-Free and Memory-Constrained Incremental Learning
  • Pre-Trained Model with Prompt Learning
  • Prompt-based Incremental Learning 2024-07-10-03-34-16
  • IV Prompt-based IL with Parameter-Efficient Cross-Task Prompt
  • PRM from Outer Prompt Granularity
  • PRM from Inner Prompt Granularity
  • HRM on the Classifier Head
  • Full Optimization
  • Comparison to Previous Methods
  • Ablation Experiments
  • Overheads
  • Detail Analysis
  • VI Conclusion
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档