文章/答案/技术大牛

发布

GraLoRA：解决大型语言模型微调瓶颈的突破性方法 — SqueezeBits和POSTECH联合研究

文章来源：企鹅号 - 至顶科技

在人工智能快速发展的今天，大型语言模型(LLM)已经成为各种智能应用的核心。但随着模型规模的不断扩大，如何高效地对这些庞然大物进行定制化训练成为了一个棘手的问题。想象一下，你有一个功能强大的通用工具，但你希望它能更好地完成特定任务——比如写代码或解决常识性问题。这就像拥有一把瑞士军刀，但你需要它的螺丝刀功能更加精准。如何在不更换整把军刀的情况下，只精确调整螺丝刀部分？这正是参数高效微调(PEFT)方法尝试解决的问题。

由SqueezeBits公司的Yeonjoon Jung、Daehyun Ahn、Hyungjun Kim、Taesu Kim和POSTECH大学的Eunhyeok Park共同完成的这项研究发表于2025年5月的预印本，提出了一种名为"GraLoRA"(Granular Low-Rank Adaptation，颗粒化低秩适应)的新方法，致力于解决现有PEFT方法中的核心限制。该论文可通过arXiv:2505.20355v1获取。

在深入了解GraLoRA之前，我们需要先理解目前最流行的PEFT方法——LoRA(Low-Rank Adaptation，低秩适应)。LoRA的核心思想非常巧妙：不去修改原始模型的全部参数（这可能高达数十亿甚至数千亿），而是在原始权重旁边添加一些小型的"适配器"矩阵。这些适配器通过低秩分解大大减少了需要训练的参数数量，就像是在不改变主体结构的情况下，添加了一些微小但精确的调整装置。

然而，研究团队发现LoRA存在一个根本性的局限：当我们尝试增加适配器的"秩"（可以理解为这些微调装置的容量或表达能力）时，模型性能并不会一直提升，反而会在某个点后开始下降。具体来说，LoRA在秩为32-64时表现最佳，但当秩继续增加时，准确率开始停滞甚至下降，始终无法达到全参数微调(FFT)的性能水平。

那么，为什么会出现这种现象呢？研究团队通过理论分析找到了答案：LoRA的结构设计导致了"梯度纠缠"问题。想象一下，如果你的螺丝刀调整装置与锯子调整装置意外地连接在一起，那么当你调整螺丝刀时，锯子也会不由自主地发生变化。在LoRA中，当输入数据中出现一些"异常值"（极端数值）时，这些异常值会对整个适配器的梯度更新产生不成比例的影响，导致训练信号被扭曲。

为了解决这个问题，研究团队提出了GraLoRA方法。与其使用一个整体的适配器，GraLoRA将权重矩阵划分为多个独立的小块（想象将一张大餐桌分成多个小餐桌），每个小块配备自己的低秩适配器。这种设计有两个关键优势：首先，它提高了表达能力，因为整体的有效秩从r增加到了kr（k是划分的块数）；其次，它局部化了梯度更新，使得输入异常值只会影响与之直接相关的块，而不会扰乱整个适配器的训练。

这就像是将一个大型餐厅的管理分解为多个小型区域，每个区域都有自己的经理。当某个区域出现问题时，只有该区域的经理需要处理，而不会影响整个餐厅的运营。通过这种方式，GraLoRA能够更好地处理复杂、多面向的模式，特别是在高秩设置下。

研究团队在代码生成和常识推理两个具有挑战性的任务上对GraLoRA进行了全面评估。在代码生成任务上，GraLoRA在所有测试的秩设置中都优于LoRA和其他基线方法。特别是在秩为128时，GraLoRA在HumanEval+基准测试的Pass@1指标上取得了相对于LoRA绝对提升8.5%的显著成果。在常识推理任务上，GraLoRA同样展现出优异性能，在各种模型规模和任务上一致超越了现有方法。

值得注意的是，GraLoRA实现了这些改进的同时，并没有增加计算或存储成本。虽然在训练过程中会有轻微的内存开销增加（由于中间表示变大），但这可以通过梯度检查点等技术有效缓解。在推理阶段，GraLoRA可以像传统LoRA一样合并到原始权重中，不会带来任何额外开销。

研究团队还针对不同的秩设置探索了最佳的块数选择策略。他们发现，在低秩设置（如16和32）下，k=2效果最好；而在高秩设置（如64和128）下，k=4表现最佳。对于非常低的秩（16或更低），他们还提出了一种混合方法，将部分秩分配给传统LoRA，部分分配给GraLoRA，以维持足够的表达能力。

一、GraLoRA方法的原理与设计

想象一下，你正在管理一个大型图书馆。传统的全参数微调就像是重新排列整个图书馆的每一本书，非常耗时且成本高昂。而LoRA则相当于只在主要书架旁边添加一些小型展示架，放置一些特别需要强调的书籍。这种方法虽然高效，但存在一个问题：当某个展示架上放了一本特别突出的书（比如一本特别厚重或色彩鲜艳的书），它会吸引所有人的注意力，导致其他书籍被忽视。

GraLoRA采用了一种不同的方法。它不是设置一个大型展示架，而是将图书馆划分为多个独立的区域，每个区域都有自己的小型展示架。这样，即使某个区域有一本特别引人注目的书，它也只会影响该区域的参观者，而不会干扰其他区域的正常浏览体验。

从技术角度来看，GraLoRA将原始权重矩阵W?∈R???（M和N分别代表输出和输入通道维度）划分为k×k个独立的块，每个块都配备自己的低秩适配器。具体来说，对于输入X，GraLoRA的更新可以表示为：

RGraLoRA = [[B?,?A?,??, ..., B?,?A?,??], [..., ..., ...], [B?,?A?,??, ..., B?,?A?,??]]

其中，A_i,j ∈ R^(N/k × r/k)，B_i,j ∈ R^(M/k × r/k)是每个块的适配器参数。

这种设计带来了两个关键优势。首先，通过表达能力分析，研究团队证明了GraLoRA的有效秩为kr，是传统LoRA的k倍。这意味着GraLoRA能够捕捉更复杂、更细粒度的模式。其次，在面对输入异常值时，GraLoRA能够有效地局部化梯度影响。当输入中出现异常值时，只有与该异常值直接相关的k个适配器对会受到放大的梯度影响，而其余的k?-k个适配器对则保持在基线水平附近，这与全参数微调的行为更为相似。

研究人员通过分析LLaMA3.1-8B模型的第一层下投影矩阵发现，输入激活值存在严重的通道不平衡现象。某些通道的值异常高，这些"异常值通道"在传统LoRA中会不成比例地影响整个适配器的梯度更新，导致训练信号扭曲。通过可视化梯度分布，研究团队清晰地展示了GraLoRA如何有效减少梯度偏差，限制异常值通道的影响。

二、GraLoRA的计算与内存开销分析

你可能会担心，这种细粒度的适配器设计是否会带来额外的计算或存储开销？研究团队进行了详细的分析，结果令人惊喜。

在计算复杂度方面，传统LoRA将计算分为两个顺序步骤：首先计算A^TX ∈ R^(r×T)，然后重构B(A^TX) ∈ R^(M×T)。这两个步骤分别需要2NrT和2rMT的浮点运算（FLOPs），总体复杂度为O(r(M+N)T)。

同样，GraLoRA也将计算分为两个步骤，涉及k?个适配器块。在第一步中，每个块计算A_i,j^TX_j ∈ R^(r/k×T)，总计算成本为2NrT。在第二步中，每个中间输出由相应的B_i,j处理，产生B_i,j(A_i,j^TX_j) ∈ R^(M/k×T)，这一步增加了2rMT的FLOPs。因此，GraLoRA的整体计算复杂度仍然是O(r(M+N)T)，与传统LoRA相当。

在存储开销方面，GraLoRA与LoRA一样，可以在推理阶段合并到原始权重矩阵中。在训练过程中，虽然中间潜在表示A_GraLoRA^TX变为传统LoRA中A^TX的k倍，但考虑到秩r通常远小于输入和输出维度，这种额外的内存消耗在实际应用中可以忽略不计。研究团队的实验表明，即使对于较大的k值，GraLoRA的额外内存需求也很小，而且可以通过梯度检查点等技术进一步减少。

三、混合GraLoRA：平衡表达能力与精度

研究团队注意到，虽然GraLoRA在高秩设置下表现优异，但在非常低的秩（如16或更低）时，可能会出现性能下降或仅带来微小的收益。这是因为将每个块的秩限制为r/k可能会削弱单个块的表达能力。

为了解决这个问题，研究团队提出了一种混合方法，结合了LoRA和GraLoRA的优势。这种方法保留了GraLoRA的细粒度输入处理和增加的总秩，同时通过LoRA保持了较大块单元的表达能力。由于LoRA在行和列之间共享相同的参数，它可以自然地以级联形式与GraLoRA集成，这被称为混合GraLoRA。

通过实验，研究团队发现，在低秩场景（γ <= 16）中，将总秩的最多1/2分配给LoRA组件可以缓解GraLoRA的局限性；而在高秩情况下，将全部秩分配给GraLoRA表现更好。这种灵活的方法使得GraLoRA能够适应不同的任务和模型大小。

四、实验结果：代码生成与常识推理

为了验证GraLoRA的有效性，研究团队在两个具有挑战性的领域进行了广泛的实验：代码生成和常识推理。他们使用了不同架构和规模的开源LLM，包括LLaMA3.1-8B、LLaMA3.1-70B、Qwen-2.5-1.5B和Qwen-2.5-7B。

在代码生成任务中，研究团队在Magicoder-Evol-Instruct-110k数据集上对各个模型进行了微调，并在HumanEval+测试集上进行评估。结果显示，GraLoRA在所有测试的秩设置中都优于LoRA、MoRA和RaSA。在秩为64时，GraLoRA在Pass@1上取得了相对于LoRA的+2.4%的绝对提升，在Pass@5和Pass@10上分别提高了+4.8%和+4.1%。在秩为128时，提升更为显著，Pass@1增加了+8.5%，Pass@5增加了+6.9%，Pass@10增加了+5.1%。

值得注意的是，虽然其他方法在增加秩时往往会遇到性能瓶颈（通常在较低的秩处达到性能平台），但GraLoRA能够保持一致的上升轨迹，有效克服了LoRA的局限性。即使在低秩设置（如秩为16）下，混合变体的GraLoRA也表现出色，证明了这种方法在表达能力受限的情况下的有效性。

在常识推理任务中，研究团队评估了各种模型在8个基准测试上的表现：BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-Challenge、ARC-Easy和OpenBookQA。实验结果表明，GraLoRA在不同规模的模型上都取得了一致的优势，在Qwen2.5-1.5B和LLaMA3.1-70B上平均准确率提高了1.1%，在Qwen2.5-7B上提高了0.9%。

更令人印象深刻的是，GraLoRA在24个任务中的20个上取得了最佳结果，一致地超越了其他方法。这些结果支持了研究团队的分析，表明GraLoRA的局部化更新增强了与全参数微调的对齐，促进了在多方面推理任务中的稳健泛化。

五、消融研究：参数选择与模型行为

为了更深入地理解GraLoRA的行为，研究团队进行了详细的消融研究。他们评估了不同k值对代码生成准确率的影响，发现在秩为32时，k=2效果最好；而在秩为128时，k=4表现最佳。这些结果与理论预测一致，即在较低的秩时，较小的k值更可取，因为减少的子块秩在总体秩有限时尤其不利。

研究团队还评估了混合GraLoRA中不同LoRA-GraLoRA秩分配比例的性能。在秩为16时，部分将秩分配给LoRA导致最佳准确率。然而，对于更大的秩，将秩分配给LoRA会导致性能下降。这表明混合GraLoRA在低秩场景中更具优势，在这种情况下，GraLoRA的子块秩可能不足。相比之下，在高秩设置下，GraLoRA的子块足够表达丰富，引入LoRA组件可能会导致梯度纠缠，从而阻碍有效学习。

总的来说，GraLoRA代表了参数高效微调方法设计的一个原则性和实用性的进步。通过解决传统LoRA中的表达性瓶颈，GraLoRA提供了一种更灵活、更强大的适应机制，特别是在处理需要细粒度、本地化或多面向模式的任务时。它的设计不仅提高了性能，还保持了LoRA的计算效率和部署简便性，使其成为实际应用中的理想选择。

六、GraLoRA的意义与未来方向

GraLoRA的提出不仅解决了LoRA的根本局限性，还为参数高效微调的研究打开了新的方向。通过引入细粒度、局部化的适应机制，GraLoRA更接近于全参数微调的行为，同时保持了LoRA的参数效率。

研究团队指出，虽然GraLoRA提高了梯度局部性和表达能力，但其当前设计假设均匀分区。未来的扩展可能探索自适应或学习的分区方案，稀疏感知块激活，或任务驱动的动态秩分配。此外，将GraLoRA应用于视觉Transformer、多模态架构或持续学习设置可能进一步突显其在稳健和高效模型适应中的潜力。

总体而言，GraLoRA代表了PEFT方法设计中的一个原则性和实用性步骤，填补了全局低秩重参数化与局部、细粒度适应之间的差距。它不仅在当前的任务上表现出色，还为未来更复杂、更高效的模型适应方法铺平了道路。

通过这项突破性的研究，我们可以预见，大型语言模型的定制化将变得更加高效和有效，使更多人能够利用这些强大的工具来解决特定领域的问题，无论是代码生成、常识推理还是其他尚未探索的应用领域。

发表于: 2025-05-312025-05-31 12:09:11
原文链接：https://page.om.qq.com/page/OWpKM4Yl2_1_m1a5IaQbz-8A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

GraLoRA：解决大型语言模型微调瓶颈的突破性方法 — SqueezeBits和POSTECH联合研究

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐