能否仅依靠 LoRA 权重，而不依赖于预训练权重？PC-LoRA 给你答案！

AIGC 先锋科技

发布于 2024-07-08 14:25:17

570

发布于 2024-07-08 14:25:17

低秩适应（LoRA）是一种显著的方法，通过向冻结的预训练权重中添加少量可学习参数，以实现参数高效的微调。启发于这样一个问题：“作者能否仅依靠LoRA权重，在微调的最后阶段使其表示足够，而不依赖于预训练权重？”在这项工作中，作者引入了渐进式压缩LoRA（PC-LoRA），它利用低秩适应（LoRA）同时执行模型压缩和微调。PC-LoRA方法在训练过程中逐渐移除预训练权重，最终只留下低秩 Adapter 。因此，这些低秩 Adapter 替换了整个预训练权重，同时实现了压缩和微调的目标。在多种模型上的实证分析表明，PC-LoRA在视觉模型（如ViT-B）上实现了94.36%/89.1%的参数和FLOPs压缩率，在语言模型（如BERT）上实现了93.42%/84.2%的参数和FLOPs压缩。

1 Introduction

自从引入了预训练的 Transformer [27]模型以来，它们在自然语言处理（NLP）[1, 6]和计算机视觉（CV）[2, 7, 28]的一系列任务中展现出了卓越的有效性。然而，它们庞大的规模和高计算需求给部署和微调带来了困难。

为了应对这些挑战，已经提出了几种参数高效的微调方法，包括Pre-fix Tuning [16]、Prompt Tuning [15]、P-Tuning [17]、 Adapter [10]和低秩适配（LoRA）[12]。特别是，LoRA在 Transformer 层中使用可训练的低秩矩阵，极大地减少了微调时的可训练参数数量。然而，LoRA仅在微调期间内存高效；当使用LoRA微调的模型用于推理时，它并不比原始预训练模型具有优势。

在LoRA的基础上，作者质疑“在微调的最后阶段，仅使用LoRA权重是否足以实现足够的表达，而不依赖于预训练权重？”为了找到这个问题的答案，作者提出了逐步压缩-LoRA（PC-LoRA）方法，该方法在微调期间逐渐减少预训练权重（即基础权重），直到完全移除，如图1所示。

为了在低秩 Adapter 中学习预训练模型的表示，PC-LoRA方法在微调阶段逐渐衰减预训练权重的输出。这种衰减将导致信息丢失，促使低秩 Adapter 不断增加尝试补偿。通过这个过程，预训练模型的表示将有效地流入低秩 Adapter 。因此，在训练结束时，LoRA权重可能既包含原始权重的表示，也包含微调所做的更新。这一能力展示了PC-LoRA如何系统地实现低秩压缩和参数高效微调的双重目标。

作者的PC-LoRA大幅减少了模型参数和计算量，只伴随着很小的准确度下降，对于视觉模型（例如ViT-B [7]）实现了高达94.1%p的参数减少和89.1%p的FLOPs减少，对于语言模型（例如BERT [6]）实现了高达93.5%p的参数和84.2%p的FLOPs减少。图2仅通过调整LoRA权重中的低秩（）展示了几个压缩模型，证明了作者的PC-LoRA具有灵活性和可扩展性。除了减少模型预算外，PC-LoRA还提供了其他优点。其逐层方法适用于任何具有线性层的模型，增强了可扩展性。此外，PC-LoRA与其他方法（如量化[5, 13]）兼容，可以结合使用以提升模型效率。

2 PC-LoRA Method

作者的方法，称为具有低秩适配的渐进式压缩（PC-LoRA），旨在通过在整个训练过程中逐渐减小并最终移除预训练权重的影响，来逐步压缩模型。在这种方法中，初始时输出计算同时使用预训练模型权重和低秩 Adapter 权重。随着训练的进行，预训练模型权重根据衰减因子逐渐消失，并在训练结束时最终移除，只留下低秩 Adapter 。整体概念在图1中说明。

PC-LoRA层：与LoRA [12] 方法类似，作者的PC-LoRA方法也将低秩 Adapter 附加到线性层上。在PC-LoRA中，层由预训练模型的权重和偏置组成，并辅以两个低秩 Adapter 权重和，其秩为()，它们替换预训练模型的权重。此外，权重用于替换偏置。

Training Configuration

Decay Factor Scheduler

PC-LoRA的这个基本组件管理原始模型权重的衰减，以优化压缩和适应。它使用一个衰减因子，根据所选的衰减函数从1过渡到0。这一过程在衰减方程中详细描述，并在图3中图形化表示。方程如下：

\lambda(n)=\begin{cases}1-\text{所选衰减函数}(n,q)&\text{如果 }n<q,\\ 0&\text{如果="" }n\geq="" q.\end{cases}

在这里，表示衰减阶段的终点，设置为总迭代次数的一个比例。所选的衰减函数决定了从1减少的方式，这影响了原始权重影响的减少速率。最初，表示预训练模型完全保持不变，而则表示原始权重已经被完全淘汰。理想情况下，的值设置在总迭代次数的40%到80%之间，在这个范围内没有观察到显著的性能差异。从表7中对衰减函数的消融研究中，作者将正弦函数设置为所有实验的默认选项。

3 Experiments

Implementation Details

在本论文中，作者研究了两个基准任务上的模型性能：使用CIFAR-10[14]数据集的图像分类和采用IMDb[22]数据集的文本分类。训练细节在附录B和E中提供。

作者将PC-LoRA与另外两种微调预训练模型的方法进行了比较。第一种方法，全量微调（Full-FT），更新模型的所有参数。第二种，LoRA微调（LoRA-FT），采用了LoRA但不对嵌入层进行修改，并使用固定的秩为32。PC-LoRA方法使用与LoRA-FT方法相同的配置，只专注于对进行低秩调整的层进行训练。

此外，作者还评估了不同的秩如何影响压缩模型的大小和性能，并与不同大小的ViT模型进行了比较，如图2所示。同样，作者将分析扩展到BERT模型，详细内容见附录D。

在研究中，作者对PC-LoRA方法进行了消融研究，详细内容见附录C。这些研究包括探索不同类型的衰减因子调度器以确定它们对性能的影响。此外，作者还研究了基于特征的知识蒸馏损失的最佳比例，即方程4中的值，以提高压缩模型的准确性。

Main Results

表1和表2展示了在CIFAR10和IMDb基准测试上，各种视觉和语言模型采用全量微调（Full-FT）、低秩微调（LoRA-FT）以及所提出的基于部分低秩调整（PC-LoRA）方法的性能比较。全量微调和低秩微调的性能相似。与使用相同数量参数进行训练的低秩微调方法相比，部分低秩调整方法平均性能下降约为-3.56%。尽管出现了性能下降，但部分低秩调整方法最终输出的是压缩模型，在视觉模型中不包括嵌入层的情况下减少了94.36%，总GFLOPs平均减少了89.1%。对于NLP模型，不包括嵌入层的情况下，分别减少了约93.42%和总GFLOPs的84.2%。结果表明，在CIFAR10和IMDb基准测试上，部分低秩调整方法在显著减少GFLOPs和模型参数的同时，仅在精度上做出了适度的妥协，显示出良好的权衡。

图3：三种衰减因子调度器：正弦、1-余弦和线性。随着迭代进行，衰减因子从1减少到0，影响原始权重影响力减弱的速度。最初，因子为1意味着预训练模型的权重完全保持，而因子为0则表示完全过渡到新权重。

在图2中，展示了包括采用不同秩次的PC-LoRA方法压缩的ViT Base模型在内的各种ViT模型的性能，以及ViT Base、Tiny和小型模型的性能。x轴表示模型大小，y轴显示在CIFAR10上的测试准确度。标记星星的点表示与ViT Small和Tiny性能相当的PC-LoRA压缩模型。从图2的结果中可以得出两个关键观察。首先，使用PC-LoRA方法压缩的模型尽管与ViT Tiny和ViT Small有相似的模型大小，但性能却超过了它们。其次，PC-LoRA方法允许通过调整因子秩次进行压缩，从而在保持原始模型结构的同时，调整其大小到期望的水平。因此，作者的方法不仅可以生成与ViT Tiny、Small和Base相同大小 Level 的模型，还可以生成任何期望大小的模型。

同样，图5展示了包括采用不同秩次的PC-LoRA方法压缩的BERT Base模型在内的各种BERT模型的性能，以及BERT Base、Medium和小型模型。图5显示，与图2的结果类似，PC-LoRA压缩模型在相似大小的模型中表现优异。这种在不同模型中的表现一致性展示了将作者的方法应用于CV和NLP任务的健壮性和多变性。

注意力可视化。 图4展示了不同模型和输入的注意力图比较。左列显示了猫、鹦鹉和花的输入图像。中列展示了在CIFAR-10上微调的ViT Base模型的 top 三注意力图，突出最高激活区域。右列展示了采用PC-LoRA压缩的模型并微调的类似注意力图。两列均显示注意力图的质量同样很高，表明压缩并没有显著降低性能。然而，如附录F中详细说明，需要注意的是，在PC-LoRA压缩模型中，有效贡献这些高质量注意力图的头数较少。这种有效头的减少表明，压缩成功降低了维度，而没有实质性影响模型关注输入图像中相关特征的能力。