YOPO：突破性削减多模态大模型计算量，低至 12%，开启高效运算新时代

文章来源：企鹅号 - 诗境

在多模态大模型蓬勃发展的当下，视觉、文本等多模态信息的融合虽极大提升了任务处理能力，但视觉 token 激增带来的计算复杂度飙升，严重束缚了模型拓展与部署的步伐。

本文独辟蹊径，以 LLaVA 为突破口，深入探究视觉计算冗余奥秘，匠心独运地提出一套高效剪枝策略组合拳，包括邻域感知视觉注意力革新、非活跃注意力头精准剪裁、稀疏前馈网络投影重塑以及选择性层丢弃优化。实验铁证如山：LLaVA 计算开销锐减 88%，效能却稳如泰山，在多模态任务中光芒依旧。

更令人瞩目的是，此剪枝策略在 Qwen2-VL 和 InternVL2.0 等模型上成功验证普适性，恰似一把万能钥匙，开启多模态大模型高效计算新大门，为学界与业界注入全新活力与灵感源泉，引领模型优化新航向。

论文标题：Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

论文地址：https://arxiv.org/pdf/2410.06169

代码地址：https://github.com/ZhangAIPI/YOPO_MLLM_Pruning

项目主页：TBD

摘要

大语言模型的辉煌成就照亮了多模态大模型前行之路，其整合多元模态信息，在多模态任务舞台上大放异彩。

然而，视觉 token 数量的井喷式增长，如恶魔般驱使计算复杂度呈平方级膨胀，无情地限制了模型的拓展疆域与部署效能。本文剑指此顽疾，以 LLaVA 为范例，抽丝剥茧剖析视觉计算冗余本质，创造性地祭出一系列精妙剪枝策略，涵盖邻域感知视觉注意力、非活跃注意力头修剪、稀疏前馈网络投影与选择性层丢弃战术。

实验数据掷地有声：在大幅削减多达 88% 计算开销的同时，模型于多模态任务中的卓越性能毫发无损、熠熠生辉。作者乘胜追击，在 Qwen2-VL 和 InternVL2.0 模型上进一步验证此计算冗余的普遍性，宛如在多模态大模型的浩瀚星空中点亮一盏明灯，为高效计算勾勒出崭新蓝图，提供前所未有的解决范式与创新视角。

动机

多模态大模型近年来在跨模态任务（如视觉问答、文本生成和科学推理）中表现出了强大的能力。然而，与文本 token 相比，视觉 token 的数量往往更为庞大。例如，在 LLaVA 模型中，处理一张图像涉及超过 500 个视觉 token，而对应的文本 token 只有数十个。这种极大的不平衡带来了如下问题：

计算效率低下

LLMs 的注意力机制复杂度随着输入 token 数量呈二次增长。这种计算成本的急剧增加对硬件资源提出了极高的要求，限制了多模态大模型的实际应用。

冗余性被忽视

尽管视觉数据包含丰富的信息，但其固有的空间稀疏性导致许多计算是冗余的。例如，大部分视觉 token 之间的交互权重很低，仅有邻近 token 之间的交互是关键。此外，在深层模型中，视觉 token 对文本生成的影响逐渐减弱，但现有计算模式并未有效利用这一特性。

现有方法的局限性

已有的优化策略，如减少视觉 token 数量或使用轻量化的语言模型，通常以牺牲模型性能为代价。并且很多削减 token 数量的方法诸如 FastV 和 Pyramid-drop 在判断削减哪些 token 计算的过程又引入了额外的计算量，无法做到一次性得对模型进行剪枝，而是需要针对不同 token 输入做动态剪枝。因此如何在保持性能的同时显著降低计算复杂度，仍是一个急需解决的问题。

方法

本文祭出四大核心策略，从注意力机制、前馈网络、层剪枝多维度对视觉计算进行深度优化：

邻域感知的视觉注意力：

视觉 token 之间的注意力交互往往具有空间稀疏性，大部分交互权重集中在邻近 token 之间，而远距离 token 的交互在一些情况下可以忽略。传统的全局注意力计算导致了大量无用的计算开销。本文提出了一种邻域感知的注意力机制，限制视觉 token 仅与其邻近 token 交互。通过添加邻域掩码，忽略超出特定半径的 token 交互。具体公式为：

其中，半径 h 表示邻域范围。这一改进将注意力计算复杂度从

降至

非活跃注意头剪枝：

研究团队以 LLaVA-1.5 作为研究对象，随机选取了 100 个视觉问答样本，可视化了视觉 token 的不同注意力头的权重，实验发现大约有一半数量的注意力头都没有被激活。由此可见这部分注意力头的相关计算同样存在大量冗余并可以被剪枝。实验表明，即使剪掉大量注意力头，模型仅有极小的性能下降。

稀疏投影的前馈网络：

尽管对于注意力机制的剪枝可以削减可观的计算量，但 transformer 的前馈网络仍然占据了大量计算。通过剪枝大部分视觉注意力计算，模型的视觉表达变得高度稀疏。为了有效利用这种稀疏性，研究团队提出在每个 transformer 模块内的前馈网络隐藏层中随机丢弃 p% 的神经元，也就是在如下计算中使用更小的维度 d’ ：

选择性层丢弃：

研究团队通过可视化 LLaVA-1.5 不同层的视觉 token 跨模态注意力权重发现，大权重集中在前 20 层，在第 20 层到 40 层之间权重接近于 0。

这项结果表明靠后的 20 层的视觉计算存在大量冗余。这一观察启发了研究团队在靠后的层中直接跳过所有与视觉相关的计算，从而减少计算开销。具体来说，对于层 l>L−N，视觉注意力和跨模态注意力计算都被省略，使得注意力计算可以简化如下：

实验结果

团队对 LLaVA-1.5-7B 和 LLaVA-1.5-13B 模型施展剪枝魔法并严格评估，成果斐然：剪枝后 FLOPs 分别锐减至原模型 25% 与 12%。相同计算预算下，剪枝模型在 GQA、VQAv2、POPE 和 MMBench 四大基准任务中独占鳌头，超第二名方法 3.7%、1.1%、2.2% 和 0.45%。

与 PyramidDrop 和 FastV 方法在 VQAv2 和 GQA 基准对比中，随 FLOPs 削减，对手性能下滑（如 FastV 从 71.35% 降至 66.63%），本文方法凭借参数与计算模式冗余优化绝技，相同 FLOPs 下性能仅微降 0.5%，彰显卓越优势。

在 Qwen2-VL 和 InternVL-2.0 模型应用中，适当剪枝比例下无需微调性能无损，且大模型更耐剪，不同规模 InternVL-2.0 模型剪枝实验为此背书，充分验证策略广泛适用性与强大生命力。

总结

本文奏响多模态大模型剪枝策略华丽乐章。打破视觉 token 削减传统思维定式，聚焦参数与计算模式冗余剖析。LLaVA 计算开销大瘦身 88% 且性能坚挺，Qwen2-VL 和 InternVL-2.0 实验再证视觉计算冗余普遍性，为多模态大模型高效计算拓展无垠新境，树立行业革新标杆，期待引发模型优化连锁反应，催生更多创新硕果。

发表于: 2024-12-022024-12-02 20:32:00
原文链接：https://page.om.qq.com/page/OeBnnwny7Fe3yxU_cx3wqXRQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

YOPO：突破性削减多模态大模型计算量，低至 12%，开启高效运算新时代

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐