前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >能否仅依靠 LoRA 权重,而不依赖于预训练权重?PC-LoRA 给你答案 !

能否仅依靠 LoRA 权重,而不依赖于预训练权重?PC-LoRA 给你答案 !

作者头像
AIGC 先锋科技
发布2024-07-08 14:25:17
570
发布2024-07-08 14:25:17
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

低秩适应(LoRA)是一种显著的方法,通过向冻结的预训练权重中添加少量可学习参数,以实现参数高效的微调。 启发于这样一个问题:“作者能否仅依靠LoRA权重,在微调的最后阶段使其表示足够,而不依赖于预训练权重?”在这项工作中,作者引入了渐进式压缩LoRA(PC-LoRA),它利用低秩适应(LoRA)同时执行模型压缩和微调。PC-LoRA方法在训练过程中逐渐移除预训练权重,最终只留下低秩 Adapter 。 因此,这些低秩 Adapter 替换了整个预训练权重,同时实现了压缩和微调的目标。 在多种模型上的实证分析表明,PC-LoRA在视觉模型(如ViT-B)上实现了94.36%/89.1%的参数和FLOPs压缩率,在语言模型(如BERT)上实现了93.42%/84.2%的参数和FLOPs压缩。

1 Introduction

自从引入了预训练的 Transformer [27]模型以来,它们在自然语言处理(NLP)[1, 6]和计算机视觉(CV)[2, 7, 28]的一系列任务中展现出了卓越的有效性。然而,它们庞大的规模和高计算需求给部署和微调带来了困难。

为了应对这些挑战,已经提出了几种参数高效的微调方法,包括Pre-fix Tuning [16]、Prompt Tuning [15]、P-Tuning [17]、 Adapter [10]和低秩适配(LoRA)[12]。特别是,LoRA在 Transformer 层中使用可训练的低秩矩阵,极大地减少了微调时的可训练参数数量。然而,LoRA仅在微调期间内存高效;当使用LoRA微调的模型用于推理时,它并不比原始预训练模型具有优势。

在LoRA的基础上,作者质疑“在微调的最后阶段,仅使用LoRA权重是否足以实现足够的表达,而不依赖于预训练权重?”为了找到这个问题的答案,作者提出了逐步压缩-LoRA(PC-LoRA)方法,该方法在微调期间逐渐减少预训练权重(即基础权重),直到完全移除,如图1所示。

为了在低秩 Adapter 中学习预训练模型的表示,PC-LoRA方法在微调阶段逐渐衰减预训练权重的输出。这种衰减将导致信息丢失,促使低秩 Adapter 不断增加尝试补偿。通过这个过程,预训练模型的表示将有效地流入低秩 Adapter 。因此,在训练结束时,LoRA权重可能既包含原始权重的表示,也包含微调所做的更新。这一能力展示了PC-LoRA如何系统地实现低秩压缩和参数高效微调的双重目标。

作者的PC-LoRA大幅减少了模型参数和计算量,只伴随着很小的准确度下降,对于视觉模型(例如ViT-B [7])实现了高达94.1%p的参数减少和89.1%p的FLOPs减少,对于语言模型(例如BERT [6])实现了高达93.5%p的参数和84.2%p的FLOPs减少。图2仅通过调整LoRA权重中的低秩()展示了几个压缩模型,证明了作者的PC-LoRA具有灵活性和可扩展性。除了减少模型预算外,PC-LoRA还提供了其他优点。其逐层方法适用于任何具有线性层的模型,增强了可扩展性。此外,PC-LoRA与其他方法(如量化[5, 13])兼容,可以结合使用以提升模型效率。

2 PC-LoRA Method

作者的方法,称为具有低秩适配的渐进式压缩(PC-LoRA),旨在通过在整个训练过程中逐渐减小并最终移除预训练权重的影响,来逐步压缩模型。在这种方法中,初始时输出计算同时使用预训练模型权重和低秩 Adapter 权重。随着训练的进行,预训练模型权重根据衰减因子逐渐消失,并在训练结束时最终移除,只留下低秩 Adapter 。整体概念在图1中说明。

PC-LoRA层:与LoRA [12] 方法类似,作者的PC-LoRA方法也将低秩 Adapter 附加到线性层上。在PC-LoRA中,层由预训练模型的权重和偏置组成,并辅以两个低秩 Adapter 权重和,其秩为(),它们替换预训练模型的权重。此外,权重用于替换偏置。

Training Configuration

Decay Factor Scheduler

PC-LoRA的这个基本组件管理原始模型权重的衰减,以优化压缩和适应。它使用一个衰减因子 ,根据所选的衰减函数从1过渡到0。这一过程在衰减方程中详细描述,并在图3中图形化表示。方程如下:

\lambda(n)=\begin{cases}1-\text{所选衰减函数}(n,q)&\text{如果 }n<q,\\ 0&\text{如果="" }n\geq="" q.\end{cases}

在这里, 表示衰减阶段的终点,设置为总迭代次数 的一个比例。所选的衰减函数决定了 从1减少的方式,这影响了原始权重影响的减少速率。最初, 表示预训练模型完全保持不变,而 则表示原始权重已经被完全淘汰。理想情况下, 的值设置在总迭代次数的40%到80%之间,在这个范围内没有观察到显著的性能差异。从表7中对衰减函数的消融研究中,作者将正弦函数设置为所有实验的默认选项。

3 Experiments

Implementation Details

在本论文中,作者研究了两个基准任务上的模型性能:使用CIFAR-10[14]数据集的图像分类和采用IMDb[22]数据集的文本分类。训练细节在附录B和E中提供。

作者将PC-LoRA与另外两种微调预训练模型的方法进行了比较。第一种方法,全量微调(Full-FT),更新模型的所有参数。第二种,LoRA微调(LoRA-FT),采用了LoRA但不对嵌入层进行修改,并使用固定的秩为32。PC-LoRA方法使用与LoRA-FT方法相同的配置,只专注于对进行低秩调整的层进行训练。

此外,作者还评估了不同的秩如何影响压缩模型的大小和性能,并与不同大小的ViT模型进行了比较,如图2所示。同样,作者将分析扩展到BERT模型,详细内容见附录D。

在研究中,作者对PC-LoRA方法进行了消融研究,详细内容见附录C。这些研究包括探索不同类型的衰减因子调度器以确定它们对性能的影响。此外,作者还研究了基于特征的知识蒸馏损失的最佳比例,即方程4中的值,以提高压缩模型的准确性。

Main Results

表1和表2展示了在CIFAR10和IMDb基准测试上,各种视觉和语言模型采用全量微调(Full-FT)、低秩微调(LoRA-FT)以及所提出的基于部分低秩调整(PC-LoRA)方法的性能比较。全量微调和低秩微调的性能相似。与使用相同数量参数进行训练的低秩微调方法相比,部分低秩调整方法平均性能下降约为-3.56%。尽管出现了性能下降,但部分低秩调整方法最终输出的是压缩模型,在视觉模型中不包括嵌入层的情况下减少了94.36%,总GFLOPs平均减少了89.1%。对于NLP模型,不包括嵌入层的情况下,分别减少了约93.42%和总GFLOPs的84.2%。结果表明,在CIFAR10和IMDb基准测试上,部分低秩调整方法在显著减少GFLOPs和模型参数的同时,仅在精度上做出了适度的妥协,显示出良好的权衡。

图3:三种衰减因子调度器:正弦、1-余弦和线性。随着迭代进行,衰减因子从1减少到0,影响原始权重影响力减弱的速度。最初,因子为1意味着预训练模型的权重完全保持,而因子为0则表示完全过渡到新权重。

在图2中,展示了包括采用不同秩次的PC-LoRA方法压缩的ViT Base模型在内的各种ViT模型的性能,以及ViT Base、Tiny和小型模型的性能。x轴表示模型大小,y轴显示在CIFAR10上的测试准确度。标记星星的点表示与ViT Small和Tiny性能相当的PC-LoRA压缩模型。从图2的结果中可以得出两个关键观察。首先,使用PC-LoRA方法压缩的模型尽管与ViT Tiny和ViT Small有相似的模型大小,但性能却超过了它们。其次,PC-LoRA方法允许通过调整因子秩次进行压缩,从而在保持原始模型结构的同时,调整其大小到期望的水平。因此,作者的方法不仅可以生成与ViT Tiny、Small和Base相同大小 Level 的模型,还可以生成任何期望大小的模型。

同样,图5展示了包括采用不同秩次的PC-LoRA方法压缩的BERT Base模型在内的各种BERT模型的性能,以及BERT Base、Medium和小型模型。图5显示,与图2的结果类似,PC-LoRA压缩模型在相似大小的模型中表现优异。这种在不同模型中的表现一致性展示了将作者的方法应用于CV和NLP任务的健壮性和多变性。

注意力可视化。 图4展示了不同模型和输入的注意力图比较。左列显示了猫、鹦鹉和花的输入图像。中列展示了在CIFAR-10上微调的ViT Base模型的 top 三注意力图,突出最高激活区域。右列展示了采用PC-LoRA压缩的模型并微调的类似注意力图。两列均显示注意力图的质量同样很高,表明压缩并没有显著降低性能。然而,如附录F中详细说明,需要注意的是,在PC-LoRA压缩模型中,有效贡献这些高质量注意力图的头数较少。这种有效头的减少表明,压缩成功降低了维度,而没有实质性影响模型关注输入图像中相关特征的能力。

4 Conclusion

在本工作中,作者探讨了通过低秩适配结合模型压缩和参数高效微调的能力。通过逐步衰减预训练权重的输出,并允许LoRA权重弥合这些权重衰减表示的差距,作者的PC-LoRA在仅轻微性能下降的情况下实现了显著的模型压缩。

未来的工作将探索以下潜在的进展:作者将改进衰减因子调度器以提升压缩性能。此外,作者计划细化低秩 Adapter 的初始化。

目前,它使用随机高斯分布初始化,用零初始化,实际上是从一个基本设置开始压缩。

为了提高PC-LoRA方法的有效性,作者将采用更复杂的方法,使用预训练权重的奇异值分解(SVD)的结果作为和的初始信息,从而促进渐进式压缩过程。

此外,作者计划将PC-LoRA方法应用于大规模模型和数据集,并将作者的方法与其他压缩策略进行评估。

参考

[1].PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 PC-LoRA Method
  • Training Configuration
  • Decay Factor Scheduler
  • 3 Experiments
  • Implementation Details
  • Main Results
  • 4 Conclusion
  • 参考
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档