前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SIGIR2024 | IISAN: 使用解耦PEFT高效适配多模态表征的序列推荐方法

SIGIR2024 | IISAN: 使用解耦PEFT高效适配多模态表征的序列推荐方法

作者头像
张小磊
发布2024-05-11 18:09:02
1860
发布2024-05-11 18:09:02
举报

TLDR: 为了缓解多模态推荐存在的效率问题,本文提出一种高效适配多模态表征的序列推荐方法,并提出了一种更加全面的效率衡量指标TPME,最后从实验和理论方面证实了该方法的优越性。该成果已被SIGIR 2024接收。

论文:arxiv.org/pdf/2404.02059 代码:github.com/GAIR-Lab/IISAN

研究动机

多模态基础模型,如 GPT-4、DALL-E、LLaMA 和 CLIP,处于人工智能的前沿领域。特别是,它们生成通用表征的卓越能力对于序列推荐任务非常有利,所以序列推荐任务最近已从传统的依赖 ID(标识符)转向多模态物品内容(文本、图像等)。这个范式的转移最近取得较大进展,尤其是很多论文提出端到端的微调多模态编码器能够显著提升推荐的性能 [1]。

这种范式尽管能够产生很好的效果,但是由于需要微调包含大量参数的多模态编码器从而产生了很严重的效率问题,此问题现有研究并未被很好的解决。这种情况使得许多资源有限的研究人员和工程师(例如缺乏A100或H100等显卡)难以参与,他们因为显存限制或者训练时间过长而对这种范式望而却步。现有研究主要集中在基于文本或图片的单模态模型上 [1,2,3],其中效率问题已经相当严重。当引入多个模态的编码器时,这些效率问题将进一步加剧。作者们首先针对于实际效率问题主要提出聚焦于GPU显存训练时间两个维度。

为了解决编码器微调的问题,目前大多数研究采用了如Adapter或LoRA这样的参数高效微调技术(PEFT)。这些技术通过在Transformer模型中嵌入小型神经网络,并只对这些部分进行微调,实现了参数高效的微调。然而,本文作者提出了一个关键问题:这种参数高效真的能等同实际的效率吗? PEFT最初并非为解决实际效率问题而设计,而是为了应对在不同子任务中复制多个模型的需求 [4]。如下图中间部分所示,这种基于嵌入神经网络的架构存在一些固有的缺陷:

如图所示,Adapter和LoRA都属于图中的EPEFT。虽然这种方法在训练时显著减少了训练参数的数量,但实际上它并没有减少梯度计算图的复杂度。作者指出,由于行业内对这一问题认识不足,PEFT领域正面临以下两个关键问题:

  1. 当前主流的EPEFT(例如Adapter和LoRA)存在固有的效率缺陷。
  2. 在PEFT的研究中,普遍存在一个误区,即错误地将参数效率与实际效率等同起来。

多模态序列推荐的研究当中自然也受上述两个关键问题的困扰,为了解决上述两个关键问题促使了作者本篇研究。为了解决上述的第一个问题,作者提出一种简单高效的IISAN(Intra- and Inter-modal Side Adapted Network,内模态和跨模态边适配网络)用于实现高效适配多模态表征。(IISAN读音同“Isan”[伊森],泰国最大地区的名称)与采用的EPEFT的传统方法相比,IISAN有如下三个创新

(1)如上图的右侧所示,IISAN属于DPEFT(解耦的参数高效微调),可以大幅度的减少计算图。

(2)作者通过DPEFT特点的进一步的观察,提出采用缓存技术将所有的物品隐藏状态进行缓存从而实现了进一步的高效。

(3)利用多模态当中内模态和跨膜态交互的能力,使用内模态和跨模态边适配网络进一步提升多模态表征能力。

作者分了两个层面解决上述第二个社区认知误区问题,作者首先对FFT(全微调)、EPEFT、IISAN以及采用缓存技术的IISAN进行了简单且易于理解的效率分析,主要从训练时间、参数效率和GPU显存三个方面进行考量。其次,为了能够直接衡量不同模型的实际效率,提出了一种TPME评价指标,包含了训练时间,训练参数,GPU显存三个层面,并着重于训练时间和显存两个方面。通过采用这个评价指标,有效缓解了研究人员只通过训练参数的多少来衡量模型高效性的误区。

本文的贡献:

(1)参照DPEFT的范式提出一种IISAN架构用于高效适配多模态表征,并提出了缓存技术进一步提升了效率。

(2)提出一种新的实际效率衡量指标TPME(训练时间,训练参数,GPU显存)。

(3)提供了一个简单详细的分析使读者能够更好的理解PEFT的效率问题,证明了IISAN相较于流行的EPEFT在效率层面上存在理论上的优越性。

网络架构

IISAN 架构如下图所示,其中内模态intra-SAN (intra-modal Side Adapted Network) 在模态内进行独立地进行表征学习,而跨模态的inter-SAN (inter-modal Side Adapted Network) 则致力于多模态网络中的交互信息。此外,每个SAN块从相应的层通过可学习的门控接收隐藏状态,并进行学习优化。并利用LayerDrop技术进一步减少冗余的层实现更高的效率。最终通过in-batch 交叉熵损失函数完成推荐任务。

新的效率评价指标:TPME

作者采用社会统计领域常用的复合型指标对于训练时间,训练参数和GPU显存三个维度进行归一化后加权得到TPME的计算方法:

假设我们需要评估K个模型,其中。其中分别代表每epoch的训练时间(秒),可训练参数,所用GPU显存(GB)。

注意该评价指标需要在实验设置完全相同的情况下,对多个模型进行衡量,并记录数值带入公式进行计算。为了更好的突出实际效率,作者提出将训练时间和GPU显存的权重设置为0.45,把训练参数的设置为0.1。

效率分析

因为分析具体的transformer结构的效率比较复杂,为了能够进行量好的比较不同方法之间的效率以及其可读性,作者采用基于算法设计复杂度分析的边界分析,假设训练过程中存在一个有庞大参数量的基础模型和一个拥有远小于基础模型参数的PEFT模组。将效率根据组成部分,分成不同的维度,同维度内消除较小的变量。作者指出,由于下文的分析当中的假设足够的通用,所以该分析结论适用于通用的PEFT的使用场景,而并不仅仅局限于适配多模态序列推荐物品表征。最终结果如下表所示:

表中需要进行微调的基础模型中每一个效率维度用大写字母的变量,而PEFT模块为小写字母表示,其中所有小写字母变量维度会远远小于大写字母变量。遵循算法设计的复杂度准则以及简洁性,以训练时间当中的前向传播维度为例,如果计算结果最终出现,作者最终会将其约等于为。

训练时间效率(Training-time)

作者将其拆分为三种主要组成部分,即前向传播,反向传播,参数更新三个部分。将基础模型的三个部分分别设置为, 而PEFT模块为,其中。故而我们可以得到全微调(FFT)的训练时间效率为:

O(FP+BP+WU)

Adapter和LoRA作为EPEFT,由于上文提到该方法无法减少反向传播的计算图,且前向和反向传播不仅仅需要经过基础模型也需要经过PEFT模块,仅仅节省的是参数更新部分,并不需要对于基础模型进行参数更新所以其的训练时间效率为:

O(FP+fp+BP+bp+wu)\approx O(FP+BP+wu)

但是对于IISAN(Uncached)这种DPEFT模式相比EPEFT可以使得反向传播并不经过基础模型,其训练时间效率为:

O(FP+fp+bp+wu)\approx O(FP+bp+wu)

通过缓存技术,在训练中无需前向经过基础模型,所以最终的训练时间效率为:

O(fp+bp+wu)
参数效率

假设基础模型的训练参数为,PEFT模块的训练参数为,其中。由于本部分仅关注可训练参数,所以FFT的参数效率为,其他所有的PEFT方法都为。不过要注意的是上文中提到过,参数效率的实际作用通常为节省复制一个基础模型到多个子任务时的存储空间问题,这在大多数研究和工程通常并不是一个常见的场景尤其是对于推荐系统模型,通常的做法是将模型存储在云服务器当中,存储空间往往并不是一个实际的瓶颈。本文主要关注的是训练时间显存效率两个方面。

GPU显存效率

论文采用拆解模型训练时在GPU显存中各个部分占用的视角,来解释为什么传统的PEFT在训练中并不能显著减少非常多显存,但是IISAN可以。

GPU显存占用主要有五个部分组成(1)模型参数(2)梯度(3)优化器状态(4)前向传播的激活值(5)其他的一些如临时缓存等。通常,前四个部分占主要的的存储,第五个部分相比之下很小,所以论文分析当中忽略了第五部分。

为了更简简洁的表达,作者将模型梯度和模型可训练参数等价。将基础模型参数所占显存定义为,PEFT模组参数所占显存定义为,其中。对于优化器状态,作者以常用的Adam优化器为例。因为需要计算二阶动量,所以其所占显存为可训练参数的两倍,对于基础模型来说为,PEFT模组为。我们把对于基础模型的激活值定义为,PEFT模组的定义为。其中,激活值与模型的大小以及batch size等都相关,是在前向传播时需要存储下来用于反向传播的计算。

对于FFT来说,GPU显存为

O(MW+MW+2MW+A)=O(4MW+A)\approx O(MW+A)

对于EPEFT的LoRA和Adapter来说,可以节省的显存主要为模型梯度和优化器状态部分。在激活值上由于反向传播依然需要经过基础模型,所以激活值仍需要存储下来,故它们的显存占用表示为:

O(MW+mw+mw+2mw+A+a)=O(MW+4mw+A+a)\approx O(MW+A)

要注意的是尽管EPEFT和FFT理论上的上界相同,但是在基础模型参数做为瓶颈而不是激活值为瓶颈的时候,其依然可以节省3倍显存,作者这里的分析也和LoRA论文当中实验结果的节省3倍显存相对应[5]。对于属于DPEFT的IISAN(Uncached)来说,由于反向传播完全不需要经过基础模型,所以基础模型上的激活值并不需要被存储下来,所以显存占用为:

O(MW+mw+mw+2mw+a)=O(MW+4mw+a)\approx O(MW+a)

IISAN(Cached)通过缓存技术,不需要将基础模型加载到显存当中,所以显存占用为

O(mw+mw+2mw+a)=O(4mw+a)\approx O(mw+a)

实验设置

数据集

为了能够使用原始图片和文本对方法进行评估,作者采用亚马逊评论数据集。采用常用的“Industrial and Scientific”,“Musical Instruments”,and “Office Products”三个数据集。

预训练模型的使用

文本:

bert-base-uncased

deberta-v3-base

图片:

vit-base-patch16-224

clip-vit-base-patch16

评价标准

论文采用 "leave-one-out"的策略来分割数据集:交互序列中的最后一项用于评估,最后一项之前的一项用于验证,其余的用于训练。评估指标采用 HR@10 (命中率) 和 NDCG@10 (归一化累计收益) 。所有实验结果均为测试集的结果。

实验部分:

论文提出如下几个关键研究问题:

RQ1: 提出的IISAN在性能上与FFT和现有常用PEFT方法相比如何?IISAN能否在不牺牲性能的情况下提升显著的效率?

RQ2: IISAN在不同多模态骨干网络上的鲁棒性如何?

RQ3: 提出的IISAN的组成部分如何影响推荐性能和效率,包括LayerDrop、模态选择、门控融合等?

RQ4: IISAN主要探索了多模态推荐场景,它有没有比单模态方法(仅文本和仅图像)更有优势?

RQ1

IISAN 能够以最高的效率实现具备竞争力的性能,作者提出的TPME 有效地揭示了每种方法的实际效率水平。IISAN(Cached)仅仅使用3GB显存,22秒每epoch的训练时间,相比传统的FFT,Adapter,LoRA都实现了巨大的效率提升。

RQ2

IISAN 在不同的基础模型组合上保持出色的稳健性。

RQ3

(1) 同时使用内模态和跨模态边适配网络,可以实现最佳性能。

(2) 通过在去除一半的IISAN中的基础模块SANB,降低了IISAN的冗余性,可以实现最佳的效率和性能平衡。

(3) 通过对于可学习Gate数值的观察,作者得出在推荐任务中,文本模态起着更关键的作用,其中Inter-SAN可以有效地维持文本模态的主导地位并整合图像信息。

RQ4

实验结果表明,依赖多模态的推荐系统要明显好于仅依赖单模态的效果。

总结

文章提出了IISAN架构,用于适配预训练的多模态基础模型作为序列推荐任务表征。IISAN利用DPEFT的优势,将可训练的内模态和跨模态适配网络从多模态主干网络中分离出来,从而极大减少计算图并使得其可以采用缓存策略进一步提升效率。这使得IISAN在模型实用效率方面得到优化。此外,IISAN中Intra-SAN和Inter-SAN通过结合内模态和跨模态信息的适应性交互,达到了与FFT(全微调)相当的性能。

此外,作者引入了一个实际效率指标——TPME,来综合评价不同方法之间的实际效率。最后,三个推荐数据集上的实验结果显示了IISAN在效率和效果方面的优越性。效率分析还从理论上证明了IISAN的高效率。未来的工作包括探索更多潜在的应用,例如多模态检索和视觉问题解答等,这些任务能否通过IISAN范式来进行。此外,更多的模态表征可以通过新的内模态和跨模态边适配应用,例如图像、文本、视频、音频等,以进一步适配多模态的现实世界场景。

参考文献

[1] Yuan, Zheng, et al. "Where to go next for recommender systems? id-vs. modality-based recommender models revisited." Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2023.

[2] Fu, Junchen, et al. "Exploring adapter-based transfer learning for recommender systems: Empirical studies and practical insights." Proceedings of the 17th ACM International Conference on Web Search and Data Mining. 2024.

[3] Wu, Chuhan, et al. "Empowering news recommendation with pre-trained language models." Proceedings of the 44th international ACM SIGIR conference on research and development in information retrieval. 2021.

[4] Houlsby, Neil, et al. "Parameter-efficient transfer learning for NLP." International conference on machine learning. PMLR, 2019.

[5] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021).

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与推荐算法 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究动机
  • 网络架构
  • 新的效率评价指标:TPME
  • 效率分析
    • 训练时间效率(Training-time)
      • 参数效率
        • GPU显存效率
        • 实验设置
          • 数据集
            • 预训练模型的使用
              • 评价标准
              • 实验部分:
                • RQ1
                  • RQ2
                    • RQ3
                      • RQ4
                      • 总结
                      • 参考文献
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档