Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告！

AIGC 先锋科技

发布于 2024-07-31 16:46:26

880

发布于 2024-07-31 16:46:26

文章被收录于专栏：AIGC 先锋科技

1 Introduction

大规模预训练是人工智能领域的一种领先方法，通用型模型（如大型语言模型和多模态模型）已经在许多任务中超过了专业深度学习模型的表现。大型语言模型（LLM）的卓越能力激发了人们将它们与其他基于模态的模型融合以增强多模态能力的努力。这一概念得到了诸如OpenAI的GPT-4V[1]和谷歌的Gemini[2]等专有模型显著成功的进一步支持。因此，多模态大型语言模型（MLLM）应运而生，包括mPLUG-Owl系列[3, 4]，InternVL[5]，EMU[6]，LLaVA[7]，InstructBLIP[8]，MiniGPT-v2[9]和MiniGPT-4[10]。这些模型通过有效利用每种模态的预训练知识，避免了从零开始训练的计算成本。MLLM继承了LLM的认知能力，展示了许多出色的特性，如强大的语言生成能力和迁移学习能力。此外，通过与其他基于模态的模型建立强烈的表征联系和对齐，MLLM可以处理来自多种模态的输入，显著拓宽了它们的应用范围。

MLLM的成功在很大程度上归功于扩展法则：随着更多资源（如数据、计算能力或模型大小）投入到AI模型中，其性能会得到提升。然而，可扩展性带来的高资源需求阻碍了大型模型的开发和部署。例如，根据NVIDIA A100 GPU的计算，训练MiniGPT-v2需要总共超过800个GPU小时[9]。这对于大企业之外的研究行人来说是一笔难以承受的巨额开销。除了训练，推理占据了mllm资源消耗的主要部分。考虑一个典型场景，其中模型输入包括一个尺寸为像素的图像和一个长度为40个 Token 的文本提示，使用LLaVA-1.5和Vicuna-13B LLM Backbone 进行推理需要18.2T FLOPS和41.6G的内存使用。大规模模型对资源的密集需求也引发了关于民主化和隐私保护的担忧，考虑到目前主流的MLLM，如GPT-4V和Gemini，都是由少数主导企业控制并在云端运行。正如上述实验所示，即使是开源的MLLM，对计算资源的极高要求也使得它们在边缘设备上运行变得困难。这进一步加剧了确保公平访问和保障用户隐私的挑战。

鉴于这些挑战，越来越多关注于高效多模态语言模型（MLLMs）的研究。这些努力的主要目标是减少MLLMs的资源消耗，拓展其适用性，同时最小化性能下降。高效MLLMs的研究始于用轻量级模型替代大型语言模型，并进行典型的视觉指令调整。后续研究进一步提升了能力，通过以下方式扩大了用例：

(1) 引入了注重效率的轻量级架构，旨在减少参数数量或计算复杂性；

(2) 开发了更专业的组件，专注于针对高级架构的效率优化或赋予特定属性，如局部性提供了对资源敏感任务的支持，一些研究通过采用视觉标记压缩来提高效率，使MLLM的能力能够转移到资源密集型任务上，如高分辨率图像和视频理解。

在本次调查中，作者旨在详尽地组织近期在高效MLLMs领域快速发展的研究成果，如图2所示。作者将文献按照六个主要类别进行分类，涵盖了高效MLLMs的各个方面，包括架构、高效视觉、高效LLMs、训练、数据与基准测试以及应用。

架构类别关注通过高效技术开发的MLLM框架，以降低计算成本。该架构由多个基于多模态的基本模型组成，展现出与单模态模型不同的特性，从而推动了新技术的发展。
高效视觉类别探索优化高效视觉特征提取策略，强调在保持准确性的同时提升效率的方法。它解决了整合高质量视觉数据以实现有效的跨模态理解问题。
高效LLMs类别探讨提升语言模型计算效率和可扩展性的策略。它检查模型复杂性与性能之间的权衡，同时建议平衡这些竞争因素的具有前景的途径。
训练类别审视在高效MLLMs开发中至关重要的训练方法。它解决了预训练阶段、指令调整阶段以及实现最先进结果的总体训练策略所面临的挑战。
数据与基准测试类别评估在多模态语言模型评估中使用的数据集和基准测试的效率。它评估了数据集大小、复杂性与计算成本之间的权衡，并提倡开发优先考虑效率且与实际应用相关的基准测试。
应用类别研究高效MLLMs在各个领域的实际应用，强调性能与计算成本之间的平衡。通过解决资源密集型任务，如高分辨率图像理解和医疗问答，这一部分突出了高效MLLMs扩大应用范围和为现实世界问题解决作出贡献的潜力。

总之，本研究深入探讨了这些研究努力，探索了使多模态大型语言模型（MLLMs）更具资源效率的各种策略。作者回顾了高效MLLMs的发展历程，提供了高效MLLM策略的分类学，并全面比较了现有高效MLLM的性能。通过这一探索，作者旨在提供一个对当前最先进技术的全面理解，从而揭示这一新兴领域的复杂细微差别。此外，本调查还作为一份路线图，突出了未来研究的潜在途径，并促进了对高效MLLM领域所面临的挑战和机遇的深入理解。

除了调查之外，作者在GitHub上建立了一个仓库，其中收录了本调查中提及的论文，并按照相同的分类学进行组织，网址为 https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。

2 Architecture

在遵循标准的MLLM（多模态大语言模型）框架下，高效的MLLM可以分为三个主要模块：视觉编码器，负责接收和处理视觉输入；预训练的语言模型，管理接收到的多模态信号并执行推理；视觉-语言投影器，作为连接两种模态的桥梁。为了提高通用MLLM的效率，主要的优化策略包括处理高分辨率图像、压缩视觉标记、实施高效结构以及利用紧凑型语言模型等。图3展示了该架构的示意图。表1概述了高效MLLM的概览，列出了基础LLM、视觉编码器、图像分辨率以及用于连接视觉和语言的投影器。这些高效的MLLM包括：MobileVLM [20]、LLaVA-Phi [21]、Imp-v1 [22]、TinyLLaVA [23]、Bunny [24]、Gemini Nano-2 [2]、MobileVLM-v2 [17]、MoE-LLaVA-3.6B [25]、Cobra [13]、Mini-Gemini [26]、Vary-toy [27]、TinyGPT-V [28]、SPHINX-Tiny [14]、ALLaVA [29]、MM1-3B [30]、LLaVA-Gemma [31]、Mipha-3B [32]、VL-Mamba [18]、MiniCPM-V2.0 [70]、DeepSeek-VL [34]、KarmaVLM [71]、moondream2 [72]。在本节中，作者将依次全面介绍这三个模块以及其他高效组件。

2.1 Vision Encoder

接受输入图像 {X}{v} 作为输入，视觉编码器将原始图像压缩成更紧凑的图像块特征 {Z}{v} ，如下公式所示：

遵循主流的多模态语言模型（MLLM）实践，高效的MLLM选择与文本语义对齐的预训练模型，如CLIP [73]所代表的方法。这种方法有助于视觉和文本输入的特征空间之间的更好对齐。由于视觉编码器仅占MLLM参数的一小部分，相比于语言模型，轻量级优化的优势不太明显。因此，高效的MLLM通常继续使用大规模MLLM中广泛使用的视觉编码器。

多视觉编码器在图4中的BRAVE[12]对各种具有不同归纳偏置的视觉编码器进行了广泛的消融研究，以应对MLMM任务。结果表明，没有一个单一的编码器设置能够在不同的任务中始终表现出色，具有不同偏置的编码器可能会得出出乎意料的相似结果。可能认为，结合多个视觉编码器有助于捕捉广泛的视觉表示，从而增强模型对视觉数据的理解。Cobra[13]将其视觉 Backbone 网络整合了DINOv2[76]和SigLIP[75]，其理由是，结合DINOv2的低级空间特征和SigLIP提供的语义属性将提高后续任务的性能。SPHINX-X[14]采用了两个视觉编码器——DINOv2和CLIP-ConvNeXt。鉴于这些模型已经通过不同的学习方法（自监督与弱监督）和网络架构（ViT与CNN）进行预训练，它们自然能够提供最互补和复杂的视觉知识。

轻量级视觉编码器在实际应用中，由于硬件和环境限制（包括处理能力和计算能力），Vision Transformer架构带来了挑战。ViTamin [11]是一个为视觉和语言模型量身定制的轻量级视觉模型。它从卷积干细胞开始，第一和第二阶段使用移动卷积块，第三阶段使用Transformer块。值得注意的是，拥有仅参数的ViTamin-XL达到了的ImageNet零样本准确率。这超过了参数数量大十倍，达到44B的EVA-E [80]所取得的的准确率。简单地将LLaVA的图像编码器替换为ViTamin-L就能在多种MLLM性能指标上建立新标准。

2.2 Vision-Language Projector

视觉-语言投影器的任务是将视觉 Patch 嵌入映射到文本特征空间：

其中表示投影后的视觉嵌入。对齐的视觉特征作为提示，与文本嵌入一起输入语言模型。视觉-语言投影器避免了从零开始训练端到端多模态模型的高昂成本，并有效地利用了预训练的语言和视觉模型的能力。

基于MLP的，如文献 [7, 54] 所述，视觉-语言投影器通常通过直接学习线性投影器或多层感知器（MLP）实现，即几个线性投影器之间交错非线性激活函数，如表1所示。

基于注意力的BLIP2 [15] 引入了Q-Former，一个轻量级的 Transformer ，它使用一组可学习的 Query 向量从冻结的视觉模型中提取视觉特征。Flamingo [16] 提出的Perceiver Resampler考虑在交叉注意力中使用可学习的潜在 Query 作为Q，而图像特征则展开并与连接，作为交叉注意力中的和。通过这种方式，将 Transformer 在对应于可学习潜在 Query 位置处的输出作为视觉特征的聚合表示，从而将可变长度的视频帧特征标准化为固定大小的特征。BRAVE [12] 中的MEQ-Former设计了一个多编码器 Query Transformer ，以将来自多个冻结视觉编码器的特征合并为一种多功能的表示，该表示可以直接输入到冻结的语言模型中。

基于CNN的MobileVLMv2 [17] 提出了LDPv2，一个新的投影器，由三部分组成：特征转换、标记减少和位置信息增强。通过使用点状卷积层、平均池化和带有 Short-Cut 的PEG模块，LDPv2 实现了比原始LDP [20] 更高的效率，参数减少了，处理速度也略有提升。

基于Mamba的VL-Mamba [18] 在其视觉-语言投影器中实施了2D视觉选择性扫描（VSS）技术，促进了多样化学习方法的有效融合。VSS模块主要解决了逐维顺序处理和二维非因果视觉信息之间的不同处理方法。

混合结构Honeybee [19] 提出了两种视觉投影器，即C-Abstractor和D-Abstractor，它们遵循两个主要设计原则：

（i）在视觉标记数量方面提供适应性；

（ii）有效地保持局部上下文。C-Abstractor，或卷积抽象器，专注于通过使用卷积架构高效地建模局部上下文。此结构包括个ResNet块，之后是自适应平均池化和额外的个ResNet块，这些块将视觉特征抽象为任意平方数目的视觉标记。

相比之下，D-Abstractor，或基于可变形注意力的抽象器，通过使用参考点和采样偏移的2-D坐标采样过程来保持局部上下文。

2.3 Small Language Model

预训练的小型语言模型（SLM）是多功能大型语言模型（MLLMs）的核心组成部分，为其赋予了诸多卓越的能力，如零样本泛化、指令遵循和上下文学习等。SLM接受包含多种模态的输入序列，并输出相应的文本序列。通常与SLM捆绑的是一个文本分词器，它将文本提示 {X}{q} 映射到文本标记 {H}{q} 。文本标记 {H}{q} 和视觉标记 {H}{v} 被连接起来作为语言模型的输入，该模型以自回归方式输出最终的响应序列 {Y}_{a} ：

其中表示的长度。由于SLM贡献了MLLM绝大多数的参数，其选择与MLLM的轻量化特性密切相关。与参数量从70亿到数千亿的传统MLLM相比[87, 88]，高效的MLLM通常采用参数少于30亿的语言模型，例如微软的phi2-2.7B[74]和谷歌的Gemma-2B[78]。专门在特殊数据集上训练的Phi-2能够与在常规数据集上训练的、大25倍的模型性能相匹配。Phi-3-mini [86] 可以轻松地在现代手机上本地部署，并达到与Mixtral 8x7B [89] 和GPT-3.5等模型相当的质量水平。除了利用预训练模型外，MobileVLM[20]还缩小了LLaMA[87]的规模，并使用开源数据集从头开始训练。

2.4 Vision Token Compression

初步研究已经在包括视觉问答和图像标注在内的多种任务中揭示了多模态大型语言模型（MLLMs）的潜力。然而，在需要精细识别的任务中，如人群计数和小字符的OCR，MLLMs面临着相当大的挑战。直接解决这些挑战的方法之一是增加图像分辨率，实际上就是增加视觉标记的数量。然而，这种策略在Transformer架构中，由于输入标记数量的二次方增长，给MLLMs带来了相当大的计算负担。受到这一挑战的启发，视觉标记压缩成为降低因标记数量过多造成的过高计算预算的关键，也是高效MLLMs的重要方面。作者将通过多种关键技术探讨这一主题，包括多视角输入、标记处理、多尺度信息融合、视觉专家代理以及针对视频的特定方法。

多视角输入直接采用高分辨率视觉编码器进行细粒度感知的成本过高，且不符合实际使用需求。因此，为了利用低分辨率视觉编码器同时使MLLM能够感知详细信息，一种常见的方法是输入多视角的高分辨率（HR）图像，即全局视图：通过调整大小获得低分辨率图像，以及局部视图：通过分割得到的图像块。例如，LLaVA-UHD [35] 提出了一种图像模块化策略，将原始分辨率的图像划分为更小的可变大小切片，以实现高效且可扩展的编码。此外，InternLM-XComposer2-4KHD [90] 介绍了一种策略，通过自动布局安排动态调整分辨率，这种方法不仅保持了图像的原始宽高比，还自适应地改变块布局和数量，从而提高了图像信息提取的效率。通过实施针对不同分辨率图像的自适应输入策略，可以在感知能力与效率之间实现平衡。

针对处理长视觉标记序列的技术对于高效的多元语言学习模型（MLLMs）至关重要，因为它们同时解决了保持细粒度细节和降低计算复杂性的双重挑战。LLaVA-UHD [35]提出了一种新颖的方法来处理与高分辨率图像相关的计算负担。它提出了两个关键组成部分：（1）一个压缩模块，进一步浓缩视觉编码器生成的图像标记，显著降低计算负载；（2）一个空间架构，用于组织大型语言模型（LLMs）的切片标记。值得注意的是，LLaVA-UHD通过仅使用先前模型的的推理计算，支持了6倍更大分辨率的图像，展示了其效率。此外，该模型可以在学术环境中高效训练，在8个A100 GPU上仅需23小时即可完成训练。LLaVA-PruMerge[41]和MADTP [42]提出了一种自适应视觉标记减少方法，在保持模型性能相当的同时显著减少了视觉标记的数量。TinyChart [37]和TextHawk [36]专注于面向文档的任务，前者采用了视觉标记合并模块，而后者引入了重采样和重排模块。这些模块可以增强细粒度视觉感知和信息压缩能力。

多尺度信息融合利用多尺度图像信息对于视觉特征提取确实至关重要。这种方法使模型能够捕捉到更小尺度下的细粒度细节以及更大尺度下的广泛背景。Mini-Gemini [26]包括两个编码器，一个用于高分辨率图像，另一个用于低分辨率视觉嵌入。它提出了Patch信息挖掘，使用低分辨率视觉嵌入作为 Query ，通过交叉注意力从高分辨率候选中检索相关的视觉线索。在Scales上的缩放证明了多尺度小型模型具有与大型模型相当的学习能力，而且用进行小型模型的预训练可以在MLLM基准测试中与甚至超越大型模型的性能，同时计算效率更高。在将大图像分割成小子图像后， -wrapper处理单个子图像，而不是使用窗口注意力，这允许使用不支持窗口注意力的预训练模型，并避免从头开始训练额外的参数。然后，它将大特征图插值到常规大小，确保视觉标记的数量保持在可接受范围内。

视觉专家代理大多数多语言大型模型（MLLMs），由于它们的图像标记不是无损的，因此在捕捉文本和物体复杂细节方面存在困难。利用视觉专家代理是解决单一视觉编码器在丰富细节内容上泛化能力有限的问题的一种方案。P2G [38] 采用专家代理进行实时定位，通过多模态提示实现高效且有目的的推理。这一创新框架便于在富含自然视觉和文本的高分辨率场景中进行即插即用的推理定位。它通过利用代理增强文本和视觉定位以及感知，例如OCR代理（文本）或定位代理（图像）。MoVA[43] 通过引入专家路由策略来解决单个视觉编码器在各种内容上泛化能力减弱的问题。这种方法使得灵活有效地利用来自多个特定任务视觉专家的表示成为可能，从而提升了泛化能力。

视频特定方法视频理解还需要处理大量帧，这在LLMs的上下文窗口中可能带来重大的计算挑战。Elysium [92] 在性能和视觉标记消耗之间提供了折中方案，其中引入了T-Selector作为视觉标记压缩网络，以使LLMs能够在减少视觉标记使用的同时区分各个帧。VideoLLaVA [44] 在LanguageBind [93] 的基础上，将视觉表示统一到语言特征空间中，以推进基础LLM向统一语言-视觉LLM的发展，同时不会产生巨大的计算负担。

2.5 Efficient Structures

高效结构主要探索三个方向：专家混合（Mixture-of-Experts）、Mamba 和推理加速。

专家混合（MoE）通过在保持激活参数不变的同时调节模型参数总数，从而增强模型容量，因此不会显著降低推理速度。MoE-LLaVA[25]提出了一种基于MoE的稀疏多模态语言模型（MLLM）框架，它有效地增加了参数数量，同时不牺牲计算效率。此外，它还引入了MoE-Tuning，这是一种三阶段的训练策略，旨在将MoE[89]适应于MLLM，并防止由稀疏性导致的模型退化。MM1[30]设计了两种MoE模型的变体。第一种是3B-MoE模型，它使用64个专家，并每隔两层将密集层替换为稀疏层。第二种是7B-MoE模型，它使用32个专家，并每隔四层将密集层替换为稀疏层。

Mamba Cobra[13]将高效的Mamba[77]语言模型融入到视觉模态中，并探索不同的模态融合方案，以开发有效的多模态Mamba。实验表明，它不仅在与现有最先进的高效方法的竞争中表现出色，而且还因其线性的序列建模而速度更快。它还在闭集挑战性预测基准中克服视觉错觉和空间关系判断方面表现卓越，在仅使用的参数情况下，其性能与LLaVA相当。VL-Mamba[18]将基于Transformer的 Backbone 语言模型替换为预训练的Mamba语言模型。它探索了如何为多模态学习有效实现2D视觉选择性扫描机制，以及不同视觉编码器与预训练Mamba语言模型变体的组合。

推理加速SPD[45]提出了一种利用仅语言模型进行推测解码的方法，以提高推理效率。通过使用仅语言模型作为推测解码的草案模型，避免了图像标记及其相关处理组件的需要。FastV[46]发现，在第二个解码层之后，大多数图像标记接收到了低效的注意力，并通过在推理阶段消除冗余的视觉标记来减少计算量，而不会牺牲性能。VTW[47]认为，在MLLM的深层中视觉标记并非必不可少。它有策略地在特定层移除所有视觉标记，仅允许文本标记参与后续层。这种方法可以在不牺牲性能的情况下，在各种多模态任务上减少超过的计算开销。

3 Efficient Vision

视觉Transformer（ViT）[94]架构已获得广泛关注，并在计算机视觉应用中得到了广泛应用。然而，随着ViT模型规模的扩大，可训练参数和操作的数量也随之增加，这影响了它们的部署和性能。此外，自注意力机制的运算和内存成本与图像分辨率的增长呈二次关系。参考论文[95]，本次调查旨在探讨可用于高效多语言学习模型（MLLMs）的最有效的视觉编码方法。

3.1 Compact Architecture

紧凑架构指的是在保持下游任务高性能的同时，设计轻量级和高效模型的架构。它包括各种策略和方法来减少模型大小、计算复杂度和内存占用，同时不损害性能。

这些策略可以广泛分为三类：1）架构设计方法，2）架构搜索方法，3）注意力机制优化方法。

架构设计方法涉及创建新架构[133]或调整现有架构[134]，以在不牺牲性能的情况下实现紧凑性。例如，Reformer[96]在注意力机制中引入了局部敏感哈希以降低复杂性，同时还采用可逆残差层更高效地存储激活。此外，Efficient-Former[97]分析了基于ViT的模型架构和算子，引入了一种维度一致的纯Transformer范式，并采用以延迟驱动的精简方法来生成优化模型。此外，EfficientFormerV2[98]提出了一个具有低延迟和高参数效率的超网络。

架构搜索方法涉及使用神经架构搜索算法[113]探索和发现针对特定任务或约束定制的紧凑架构。例如，Autoformer[99]在层内交织权重，使得能够彻底训练数千个子网。NASViT 引入了梯度投影算法、可切换层缩放和精简数据增强，提高了收敛性和性能。此外，TF-TAS 研究了无需训练的架构搜索方法，并提出了一种高效的方案。UniNet 引入了上下文感知的下采样模块，改善了Transformer和MLP算子对信息的容纳能力。

注意力机制优化方法专注于通过引入自适应注意力、学习稀疏注意力模式以及动态调整注意力机制来降低计算复杂性。Fayyaz等人[135]通过评分和自适应采样重要标记来实现自适应注意力。PatchMerger[103]在区域标记之间提取全局信息，并通过自注意力将局部自注意力与区域标记之间的信息交换。DynamicViT[104]提出了一种注意力 Mask 策略，通过阻止与其他标记的交互来微分地剪枝标记。此外，Sepvit[105]在窗口内和跨窗口使用深度可分离自注意力进行局部-全局信息交互。这些方法共同优化了注意力机制，提高了计算效率和性能。

3.2 Pruning

剪枝涉及从视觉变换模型中移除较不重要的权重，通常分为无结构剪枝、结构剪枝和混合剪枝技术。

无结构剪枝专注于消除单个权重，而不考虑它们在模型中的结构排列。Rao等人[104]引入了一种动态标记稀疏化框架，根据输入逐步和自适应地剪除冗余标记，整合了一个轻量级的预测模块来估计标记重要性分数，并采用注意力 Mask 策略来区分标记交互，以端到端的方式优化预测模块。Cap[106]提出了一种新颖的、理论上站得住脚的剪枝器，能够准确高效地处理剪枝过程中复杂的权重相关性，并伴有一个有效的微调程序用于压缩后的恢复。Cait[107]引入了非对称标记合并，以有效地整合相邻标记同时保留空间结构，并结合一致的动态通道剪枝，以统一剪除视觉变换中不重要的通道，提升模型压缩。

结构剪枝旨在根据预定义的标准移除结构组件，如注意力头或层。例如，WDPruning[108]使用二进制 Mask 根据权重大小区分不重要的参数。此外，Yu等人[136]提出了一种统一框架，将剪枝与生成紧凑型 Transformer 相结合。X-Pruner[109]利用端到端学习的可解释性感知 Mask 来衡量每个单元对预测目标类别的贡献，并自适应地搜索逐层阈值以保留最具信息性的单元，同时确定剪枝率。此外，VTP[110]通过整合控制系数来减少嵌入维度，同时移除系数可忽略的神经元。Tang等人[111]通过首先识别最后一层中的有效区块，然后利用它们指导前面各层的选择过程，来消除冗余区块，其中对最终输出特征影响最小的区块随后被丢弃。

混合剪枝，如[137]，研究无结构和结构稀疏性，引入了一种用于注意力头移除的一阶重要性近似方法。SPViT[112]开发了一种基于动态注意力的多 Head 标记选择器，用于自适应实例 Level 的标记选择，并结合软剪枝技术，将信息量较少的标记合并为包裹标记，而不是丢弃它们。ViT-Slim[113]利用一个可学习的统一稀疏约束，并预定义因子来表示跨不同维度连续搜索空间中的全局重要性。

3.3 Knowledge Distillation

知识蒸馏是一种技术，通过这种技术，一个更小的模型从一个更大、更复杂的模型中学习以复制其性能，从而在保持预测准确性的同时实现高效部署[139]。视觉 Transformer （ViTs）的知识蒸馏（KD）技术可以分为两大类：1）同态KD和2）异态KD。

同态KD可以进一步分为logit Level 、patch Level 、module Level 和feature Level KD。对于logit Level 的方法，在DeiT[114]中，将一个蒸馏 Token 整合到自注意力模块中，以模拟教师模型推理的类别标签，促进学生注意力和层之间的交互，从而在反向传播过程中学习硬标签。TinyViT[115]在预训练过程中应用蒸馏，其中来自大型教师模型的logits预存储在硬件中，当知识传递到缩小的学生 Transformer 时，实现内存和计算效率。像DeiT-Tiny[117]这样的patch Level 技术训练一个小型学生模型以匹配预训练的教师模型在patch Level 结构上，然后用分解的流形匹配损失优化以降低计算成本。Module Level 方法涉及从预训练的统一模型中分离出教师模块，以及从模块化模型中分离出学生模块。在m2mKD[116]中，这些模块与共享元模型结合，允许学生模块模拟教师模块的行为。Feature Level KD方法，如MiniViT[118]所示，结合了连续 Transformer 块的权重。这涉及在层间共享权重同时引入变换以增强多样性。此外，在自注意力上的权重蒸馏被用于将大型ViT模型的知识传递到具有复用权重的小型模型。

异态KD涉及在不同架构的模型之间传递知识。例如，DearKD[119]提出了一种新颖的两阶段框架DearKD，与传统的ViT架构方法不同。在第一阶段，他们使用传统的KD策略将CNN特征传递到ViT学生模型，这代表了一种异态转移。在后续阶段，如果真实样本有限，他们引入了一种保持边界的内部分散损失以增强该过程。同样，CiT[120]提出了一种异态KD策略，其中知识从不同模型（如CNN和卷积神经网络）传递给学生模型，从而提高了ViT学生模型的性能。

3.4 Quantization

ViT量化是将ViT模型中数值表示的精度降低的过程，通常是从浮点运算过渡到定点运算[140]。这种精度降低旨在减少内存使用、计算复杂度和能源消耗，同时将模型准确度保持在可接受的水平。当前的研究主要可以分为后训练量化、量化感知训练和硬件感知量化。

后训练量化（PTQ）通过将训练好的ViT模型的参数从高精度浮点数转换为低精度定点数（如8位整数）来压缩模型。例如，Liu等人[141]引入了一种排序损失方法，以确定权重和输入的最佳低比特量化区间，确保注意力机制的功能。他们还分析了不同层中量化损失与特征多样性的关系，并探索了一种利用每个注意力图和输出特征的核范数的混合精度量化方法。此外，PTQ4ViT[121]引入了双统一量化方法，以最小化softmax和GELU函数后激活值的量化误差，并采用基于Hessian的度量来提高校准精度。APQ-ViT[122]提出了一种统一的底层消除块状校准方案，优化校准度量，优先考虑关键的量化误差，并设计了一种保持幂律特征和注意力机制功能的马太效应保护量化方法。NoisyQuant[123]提出在量化值中添加固定的统一噪声偏置，在特定条件下显著降低量化误差。这种技术成功修改了重尾激活分布以适应给定的量化器。

量化感知训练（QAT）将量化过程整合到训练周期中。当缩放到超低比特精度（如4比特或更低）时，这种整合特别有利，因为PTQ在这种精度下会出现显著的性能损失。例如，Quantformer[124]利用熵信息保持自注意力排序的一致性，并引入了一种可微分的搜索机制，以最优地分组 Patch 特征维度，减少舍入和剪辑不准确。Q-ViT[126]结合了知识蒸馏标记和信息矫正模块（IRM），以抵消量化注意力模块中改变的概率分布。TerViT[127]和Bit-shrinking[125]在量化过程中逐步降低模型位宽，同时控制尖锐度以保持准确性。PackQViT[129]在量化过程中减轻了异常值效应。BiViT[128]引入了Softmax感知的二值化方法，调整二值化过程，最小化softmax注意力值的二值化误差。Xiao等人[142]整合了梯度正则化方案，以限制二值化训练期间的权重振荡，并引入了激活偏移模块以减少激活中的信息失真。此外，BinaryViT[130]将卷积神经网络（CNN）中的关键架构元素集成到纯ViT框架中，增强了其能力。

硬件感知量化针对特定硬件平台（如GPU[131]、FPGA[132]）优化神经网络模型的量化过程。它调整精度水平和量化策略，以在推理过程中最大化性能和能效。例如，Yu等人[131]提出了一种利用GPU友好的2:4细粒度结构稀疏性和量化的压缩方案。他们使用2:4结构剪枝将密集模型剪枝为稀疏模型，利用GPU加速。然后，他们通过稀疏-蒸馏-感知的量化感知训练将稀疏模型量化为定点表示，利用GPU加速。在整个过程中，他们采用混合策略知识蒸馏，支持有监督和无监督学习风格。Auto-ViT-Acc[132]提出了一种针对在FPGA供电设备上运行推理的ViT架构量化的框架。他们将先前研究中的量化函数应用于注意力块中的FNN模块，旨在优化FPGA资源利用并加速推理。

4 Efficient LLMs

在本节中，类似于调研论文[160]，作者在MLLMs中占据了大部分参数体积的LLM作为提高MLLMs效率的关键切入点。为此，作者简要概述了高效LLM研究进展的情况，为高效MLLMs的发展提供灵感。

4.1 Attention

在标准的自注意力机制中，时间复杂度为，其中是序列长度。这种二次复杂度源于所有输入标记之间的成对交互，这可能导致在处理LLM中的长序列时出现可扩展性问题。为了解决这个问题，研究行人开发了一些技术以加快注意力机制的运算速度并降低时间复杂度，例如基于共享的注意力、特征信息减少、核化或低秩、固定和可学习的模式策略，以及硬件辅助的注意力。

基于共享的注意力基于共享的注意力旨在通过在多个键值对头之间共享计算资源来加速推理过程中的注意力计算。例如，Llama-2 [91] 采用了一种称为分组 Query 注意力（GQA）[143]的技术来优化自动回归解码期间的内存带宽。GQA是一种基于共享的注意力技术，旨在在多头注意力和多 Query 注意力[144]机制之间实现性能与效率的平衡。在多头注意力中，每个头使用不同的 Query 、键和值的线性变换参数。相反，多 Query 注意力在所有 Query 之间共享一组键值对头。GQA将所有 Query 头划分为几个组，每个组的 Query 头共享一个公共的键值对头，从而在有效性与计算成本之间建立严格的平衡。

特征信息减少如Funnel-Transformer[145]和Set Transformer[146]模型所示，特征信息减少策略针对注意力机制在计算效率上的关键需求，通过降低输入特征的维度或数量同时保留数据中嵌入的必要信息。这一策略背后的关键动机源于在Transformer模型的所有层中维护全长隐藏表示的潜在冗余。Funnel-Transformer [145] 通过在自注意力模型中逐步减少隐藏表示的序列大小，例如序列长度，来解决这一问题。这种减少不仅降低了计算复杂度和内存使用，还释放了可用于构建更深或更宽模型的资源。

近似注意力近似注意力使模型在处理长文本时能有效地关注与任务相关的信息。近似注意力中的两个核心概念是核化和低秩。核化，例如[148]，涉及将问题转化为基于核的框架，其目标是将原始问题转化为在更高维空间中更易于管理的问题。核化主要用于将文本序列映射到高维空间，在这里可以更容易地捕获任务相关信息。在这个新空间中，文本序列中的每个词都被表示为一个高维向量，这些向量之间的距离用于衡量它们的相似性。低秩[147]旨在将一个高维矩阵分解为两个较低维矩阵的乘积。因此，通过计算这两个较低维矩阵的逆，可以获得注意力矩阵的近似逆，从而显著降低计算复杂度。

4.2 Framework

混合专家模型（MoE）的核心思想是[89]将大规模模型分解为几个较小的模型，每个模型专注于学习输入数据的一个特定部分。在训练过程中，每个专家分配一个权重，决定了其在整个模型中的重要性。在推理阶段，给定一个输入，对所有专家进行排序，并选择最相关的一些进行计算。这种方法大大减少了计算量，因为只有一组专家参与计算。通过将计算任务分配给不同的专家，MoE在训练和推理阶段实现了计算资源的更高效利用。在MoE中，每个专家都有自己的一套参数；然而，在训练过程中这些参数是共享的。这种参数共享策略减少了模型中的参数总数，从而降低了存储和计算成本。GShard [149]是一个由一组轻量级的注解API和XLA编译器扩展组成的模块，它提供了一种优雅的方式来表达各种并行计算模式，同时对现有模型代码的修改最小。它使作者能够使用自动分片技术，将稀疏门控混合专家的多语言神经机器翻译Transformer模型扩展到超过6000亿个参数。Switch Transformer [150]用MoE路由层替换了标准Transformer中的前馈网络（FFN）层，每个专家独立地在序列中的标记上操作。在相同的计算资源下，其训练速度是谷歌之前开发的最大模型T5-XXL的四倍。所提出的训练技术消除了训练过程中的不稳定因素，证明了大型稀疏模型也可以以低精度格式（如bfloat16）进行训练。

Transformer-替代结构虽然Transformer是当前大规模语言模型中占主导地位的结构，但像RWKV [151]和Mamba [77]这样的模型已经作为提高效率和处理长文本的流行解决方案出现。这些创新模型展示了与Transformer相似的属性，包括处理长距离依赖和平行处理的能力。RWKV模型利用线性注意力机制，使作者能够将模型构建为Transformer或循环神经网络（RNN）。

This approach parallelizes computations during training and maintains constant computational and memory complexity during inference.

状态空间模型（SSMs）[152]可以被表述为一种用于有效自回归推理的循环神经网络（RNN），并已成为注意力机制的有力替代方案，其相较于注意力的二次计算复杂度，提供了接近线性的计算复杂度。SSMs 的公式为，该模型将单一维度输入信号映射到一个维潜在状态，然后再将其投射到单一维度的输出信号，其中和是通过梯度下降[152]学习的参数。已经提出了一些技术来增强SSMs，例如结构化状态空间序列模型（S4）[152]，它通过用低秩修正条件矩阵 A 来改进SSMs，以及对角状态空间（DSS）模型[153]，它提出了完全对角化的状态空间参数化以获得更高的效率。H3 通过堆叠两个 SSMs 来交互它们的输出和输入投影，在 SSMs 和注意力之间架起桥梁，同时适应现代硬件。Mamba [77]，一种选择性状态空间模型，已被引入作为大型语言模型中 Transformer 架构的强大竞争对手。Mamba 采用了一种选择机制来消除不相关数据，并开发了一种针对循环操作的硬件感知并行算法。这相比于同容量的大型语言模型（LLMs），具有线性扩展的更快推理速度和恒定的内存使用。总之，状态空间模型作为注意力机制的一种替代方案，通过提供接近线性的计算复杂度以及有效地捕捉长距离依赖关系，具有显著的潜力。随着持续的进步和改进，SSMs 有望成为深度学习和序列处理领域中的一个有影响力的方法。

4.3 Fine-Tuning

微调作为将大型语言模型（LLM）适应下游任务以及训练多模态大型语言模型（MLLLM）以遵循视觉指令的主要阶段，对于提高LLM的效率起着至关重要的作用。

参数高效微调参数高效微调（PEFT）是一种旨在使用更少的参数在大型语言模型中实现高性能的方法。诸如基于 Adapter 的微调和低秩适应等技术，为减轻微调LLM的计算和内存挑战提供了有效的解决方案，同时保持了模型的表达能力和泛化能力。基于 Adapter 的微调在预训练模型的架构中引入了轻量级的 Adapter 模块。这些 Adapter 模块通常由带有少量参数的前馈神经网络组成，并插入到原始模型的层之间。在微调期间，只更新 Adapter 参数，而预训练模型的参数保持不变。这种方法极大地减少了可训练参数的数量，从而加快了训练和推理速度，而不会牺牲模型的性能。《LLM-Adapters》[154]提出了一种将各种 Adapter 集成到大型语言模型的框架，为不同任务实现了参数高效的微调。该框架包含了目前可公开获取的最先进的大型语言模型和广泛使用的 Adapter 。(IA) [155]介绍了一种新颖的参数高效微调方法——通过抑制和放大内部激活的融合 Adapter ，它通过乘以激活学习权重模型参数的向量，实现了在无需手动调整模型结构的情况下，批处理中进行任务混合的鲁棒性小样本性能。低秩适应[161]采用矩阵分解技术减少模型中的参数数量。通过将原始权重矩阵分解为低秩矩阵，低秩适应捕捉模型表示的最重要组成部分，同时丢弃不太重要的信息。这导致了一个更紧凑的模型，其参数数量减少，可以更高效地进行微调。在LoRA-FA[156]中，LoRA的一种变体，初始化后冻结第一个低秩矩阵并用作随机投影，而训练另一个。这使得参数数量减少了一半，同时保持了与常规LoRA技术相当的性能。DyLoRa[157]引入了一种动态低秩适应技术，可以训练针对一系列秩次的LoRA块，而不是单一秩次，这是通过在训练期间对不同秩次的 Adapter 模块学到的表示进行排序来实现的。

全参数微调全参数微调是一种在微调过程中更新预训练模型所有参数的方法。这种方法旨在通过利用预训练模型的全部能力，在特定下游任务上实现最优性能。尽管全参数微调通常能带来最先进的结果和改进的任务特定性能，但它对计算能力和内存消耗的资源要求更高。为了减轻与训练相关的负担，许多研究致力于提高全参数微调过程中的内存效率。这种策略性的方法有效地减少了曾经阻碍这一研究领域进展的障碍。《LOMO》[158]提出了一种源自随机梯度下降（SGD）的低内存优化技术，以减少内存消耗。通常采用ADAM优化器；然而，在这种方法中，优化器的状态占用大量内存。通过利用基于SGD的修改后的LOMO，可以减少内存使用。尽管SGD本身面临三个挑战，但这些问题往往在模型微调过程中自行解决。具体的修改是在梯度计算内更新参数，而不是在完成整个层之后。MeZO[159]提出了一种优化器，它只需两次前向传播就能计算梯度，使得用与推理相当的内存足迹微调LLM。在拥有的GPU内存需求的情况下，它允许全面微调一个参数的模型。

5 Training

在高效多模态语言模型（MLLMs）的训练过程中，这一环节对其在下游任务上的表现以及处理多种模态的能力至关重要。在本节中，作者概述了各种训练方法，包括预训练、指令调优、多样化的训练步骤以及参数高效的迁移学习策略。这些方法旨在优化不同模态之间的对齐，针对特定任务对模型进行微调，并最小化迁移学习过程中的计算和参数成本。图14展示了在高效MLLMs开发中涉及的不同训练阶段的示意图。在以下小节中，作者将更深入地探讨这些方面的每个细节，并讨论它们在高效MLLMs中的重要性。

5.1 Pre-Training

在预训练阶段，主要关注在嵌入空间中对齐不同模态，使语言模型能够接受来自各种模态的输入。这一阶段的训练主要涉及大规模的文本配对数据，主要是图像-标题对的形式。一个图像-标题对通常被扩展成单轮对话 \left( {{X}{\text{instruct }},{X}{a}}\right) ，其中 {X}{\text{instruct }} 包含一个图像 {X}{v} 和一个从指导助教简要描述图像的问题集中随机抽取的问题 {X}{q} ，而 {X}{a} 是原始的图像描述。给定这样的对话，模型被训练成自回归地预测图像描述。因此，作者可以计算在条件 {X}{v} 下预测 {X}{a} 的概率，并使用标准的交叉熵损失函数进行优化：

其中是的长度，表示可训练的参数。为了更好地对齐不同模态的知识，并避免在预训练阶段发生灾难性遗忘，通常只包括一个可学习的模态接口，即视觉-语言投影器。

哪部分应该解冻？考虑到仅训练连接器可能无法在使用SLM时很好地对齐视觉和文本信息，TinyLlava[23]也选择部分冻结预训练模块（即视觉编码器和SLM），以激活更多参数来学习对齐。VILA[49]揭示了在整个预训练阶段更新基础LLM对于继承一些吸引人的LLM属性（如上下文学习）至关重要。ShareGPT4V[55]发现，解冻更多参数，尤其是在视觉编码器后半部分的层中，对于学习更大、更多样化的数据集是有益的，这表明训练方案的选择与数据质量密切相关。

多阶段预训练为了最大限度地提高计算效率，Idefics2 [48] 将预训练分解为两个阶段。在第一阶段，它将最大图像分辨率限制为384像素，并使用大的全局批量大小。在第二阶段，引入PDF文档，将图像分辨率提高到最大980像素，以使文本可读。

5.2 Instruction-Tuning

指令调整（IT）是高效多任务学习模型（MLLMs）的一个重要方面，它旨在通过利用特定任务的指令来对模型进行微调。这种方法建立在MLLMs能够理解并遵循自然语言提供的指令的概念上，从而提高它们在目标任务上的性能。IT在高效MLLMs中的益处是多方面的。首先，它使模型能够适应广泛任务，而对其架构或训练数据的改变最小，这使得它在多样任务上微调时既灵活又高效。其次，IT有助于提高泛化能力，因为模型学会了遵循指令，并将其知识应用到新的、未见过的任务上。

IT阶段通常在监督微调（SFT）的范式内进行。SFT数据集通常来自预训练数据的一部分，这部分数据被转换成基于指令的格式，以单轮或多轮对话结构呈现。给定一个图像 {X}{v} 及其标题，可以生成一个对话数据 \left( {{X}{q}^{1},{X}{a}^{1},\ldots ,{X}{q}^{T},{X}{a}^{T}}\right) ，其中 \mathrm{T} 是总轮数。通常，作者可以根据将数据组织成一系列指令和响应，其中第 t 轮的指令 {X}{\text{instruct }}^{t} 为：

利用这种多模态指令跟随序列，可以通过使用与预训练阶段相同的自回归训练目标来进行IT。一个普遍的策略是在IT过程中保持视觉编码器权重固定，同时继续更新投影器和SLM的预训练权重。

高效的IT 当前的IT解决方案成本过高，需要优化大量参数并进行额外的规模化训练。LaVIN [50] 为MLLMs的有效指令调整引入了一种创新且成本效益高的解决方案。LaVIN中的多模态适配混合（MMA）使用轻量级模块弥合了LLM与VL任务之间的差距。这也促进了视觉和语言模型的联合优化。实际上，实施LaVIN的成本非常低，例如，它只需要1.4个训练小时和3.8M个可训练参数。HyperLLaVA [51] 研究了MLLMs未被充分探索的动态调整策略，并利用视觉和语言引导的动态调整在两阶段训练中对投影器和LLM进行微调。

5.3 Diverse Training Steps

传统的两阶段策略需要手动为不同训练阶段分配各种可调整的参数和数据集组合，这往往是一项耗时的工作。为了缓解这一问题，SPHINX-X[14]设计了一种单一阶段、全方位的训练流程，它公平地处理所有收集到的数据集，并将它们一致转换为多模态、多轮对话格式。在这个统一训练阶段，除了视觉编码器之外，SPHINX-X中的所有参数都被激活。Cobra[13]也认为，预对齐的初始阶段可能并非必需，模型即使在微调后仍然可能存在欠拟合问题。因此，它摒弃了预对齐阶段，选择直接对整个SLM主干网络及投影器进行微调。TinyGPT-V[28]的训练过程包括四个阶段：首先是用于视觉-语言理解的预训练阶段，其次是用于细化图像模态处理的第二阶段，第三阶段通过微调实现类似人类的学习，第四阶段则是通过多任务学习提升其作为聊天机器人的对话能力。

5.4 Parameter Efficient Transfer Learning

几个研究采用了参数高效微调（PEFT）技术进行迁移学习，例如LoRA [161]，以保护预训练知识的丧失。高效注意力跳过（EAS）模块[52]提出了一种新颖的参数和计算高效调优方法，用于保留MLLMs的高性能，同时减少在下游任务上的参数和计算开销。MemVP [53]认为，这种迁移学习模式仍然表现出低效，因为它显著增加了语言模型的输入长度。MemVP中的视觉提示与前馈网络的权重连接，用于视觉知识注入，以减少微调后的MLLMs的训练时间和推理延迟，并超越先前PEFT方法的表现。

6 Data and Benchmarks

在本节中，作者提供了用于训练和评估高效多语言大规模语言模型的数据和基准概述。作者讨论了预训练数据、指令调整数据的重要性，以及用于评估这些模型性能的基准。讨论突显了多样化、高质量数据集在实现健壮且精确的多语言大规模语言模型中的重要性，同时也涉及了生成和精炼这些数据集的各种策略。此外，作者还在已建立的基准上对多语言大规模语言模型的性能进行了全面比较，强调了为确保这些模型在实际应用中的有效性而需要进行彻底评估的必要性。

6.1 Pre-Training Data

预训练数据主要服务于两个关键目标：（1）促进各种模态的整合，（2）传递全面的知识。大规模的图像-标题对数据集自然满足了这些要求。首先，它们主要来源于互联网，提供了大量的数据，知识覆盖面广。其次，两种模态之间的直接对齐有利于训练模态投影器。然而，这类语料库中的标题通常较为简短且含有噪声，可以通过自动化方法进行改进和过滤，例如使用CLIP [13]模型消除相似度得分低的图像-文本对。常用的预训练数据集总结可以在图2中找到。

越来越多的研究通过利用强大的MLLMs（如GPT-4V）来生成高质量的细粒度预训练数据。与粗粒度数据集相比，这些数据集通常提供更详细和准确的图像描述，使得图像和文本模态之间的对齐更加紧密。然而，这种方法常常需要使用商业MLLMs，导致成本增加和数据量减少。ShareGPT4V[55]通过先在一个由GPT-4V生成的10万条数据上训练一个标题生成器，然后使用预训练的标题生成器将数据集扩展到120万条，来解决这一问题。此外，VILA[49]的研究结果表明，结合交错的预训练数据是有益的，而仅依赖图像-文本对在实现预期结果方面并不理想。

6.2 Instruction-Tuning Data

指令微调（IT）是提高高效多任务学习模型（MLLMs）准确理解用户指令并有效执行期望任务的关键步骤。这一过程与多任务提示的概念密切相关。

表3中汇总了常用的预训练数据集。高质量IT数据可从特定任务的数据集中提取。例如，从视觉问答（VQA）数据集中抽取样本，输入包括图像和自然语言问题，输出基于图像的文本答案。这可以轻松形成指令样本的多模态输入和响应。指令或任务描述可以通过手动创建或借助GPT的半自动生成获得。除了使用公开可用的特定任务数据集外，SPHINX-X[14]还从互联网上广泛收集的PDF数据中组装了一个专注于OCR的数据集。具体而言，它首先从网络上收集大规模的PDF数据集，然后获取PDF文件每一页的渲染结果，同时保存所有文本标注及其相应的边界框。最终，这些元素被转换为统一的问答格式。

虽然多任务数据集提供了丰富的数据源，但它们并不总是适合复杂现实世界的情境，例如进行多轮对话。为了应对这一挑战，一些研究探索了利用LLMs进行自我指导的方法，从有限的手工标注样本生成基于文本或多模态的遵循指令数据。SPHINX-X[14]组装了一个包含图像与文本细粒度对应关系的多领域丰富数据集。它从不同来源收集图像，并利用标注在原始图像上应用各种标记。通过用这些标记过的图像和定制的特定领域指导提示GPT-4V，系统生成提供图像概览、区域细节和目标关系洞察的标题。在训练过程中，SPHINX-X使用未修改的图像而不是标记过的图像。ALLaVA[29]提出在单个会话中为图像提炼标题和问答对。具体来说，它提示GPT-4V生成一个图像的细粒度标题，然后是一个VQA对。

此外，除了多模态指令数据，用户与助手之间基于语言的对话也可以显著提高模型的对话专业知识和对指令的响应性。例如，VILA[49]的研究表明，在微调过程中将仅文本指令数据与图像-文本数据结合，不仅减少了文本任务的性能下降，还提高了MLLM相关任务的准确性。

6.3 Benchmarks

为了提供一个全面的性能评估，作者整理了一个表格，展示了22种多语言预训练模型（MLLMs）在14个公认的视觉-语言基准测试上的有效性，如表格4所示。此外，为了进一步参考，作者还纳入了13种重要且规模更大的多语言预训练模型的结果比较。

7 Applications

在上述分析中，可以看出许多高效的多任务学习模型（MLLM）在不同的应用场景中评估其性能，如视觉问答（VQA）、视觉定位、图像分割等。然而，探索这些高效架构在成熟任务中的表现以达到其最佳性能同样至关重要。因此，作者选择介绍几个下游任务，如医学分析、文档理解和视频理解。

7.1 Biomedical Analysis

由于生物医学数据标注的成本高昂，基础模型有望成为生物医学领域的新范式，在许多应用中取得了最先进的结果，包括医学问答[194]和医学图像分类[195]。近期，多模态生成式人工智能在生物医学领域异军突起，将应用范围从单模态扩展到多模态，例如视觉问答（VQA）和放射学报告生成。

混合专家调优（Expert Tuning）有效地提高了通用多语言大规模模型（MLLMs）的性能，且所需参数更少，然而在资源有限的医疗环境中的应用尚未得到充分探索。MoE-TinyMed[64]是一种为医疗应用量身定制的模型，大幅降低了参数需求。LLaVA-Rad[63]是一种在私有环境中在单个V100 GPU上表现出快速性能的最先进工具，使其非常适合现实世界的临床场景。它采用了一种模块化方法，整合了单模态预训练模型，并强调轻量级 Adapter 的训练。因此，LLaVA-Rad在标准度量上超越了如GPT-4V和Med-PaLM等更大规模的模型，展示了其卓越的效率和有效性。

7.2 Document Understanding

文件或图表作为信息的重要来源，以各种形式直观地展示数据。它们已成为信息传播、商业决策和学术研究中不可或缺的一部分。然而，当前的图表理解模型仍面临两个主要限制：(1) 参数数量庞大，使得训练和部署具有挑战性。例如，ChartLlama [196]这个拥有130亿参数的模型，在单个消费者级GPU上部署难度很大。(2) 这些模型在高效编码高分辨率图像方面存在困难，因为视觉 Transformer 往往会产生较长的特征序列。

为了解决面向文档的多语言大规模语言模型（MLLMs）在细粒度视觉感知和视觉信息压缩方面的挑战，TinyChart [37] 通过程序化思维（PoT）学习和视觉标记合并策略，在优于几个130亿参数的MLLMs的同时，还能在推理速度上表现出色。TextHawk [36] 通过设计四个专门组件来探索高效的细粒度感知，以应对面向文档任务所带来的挑战。HRVDA 和 Monkey 也是大型多模态模型，旨在解决视觉文档理解任务中对高分辨率要求所带来的挑战。

7.3 Video Comprehension

视频提供了对人类如何持续感知视觉世界的令人印象深刻的精确表现。智能视频理解对于各种现实世界应用至关重要，包括视频类别分类、视频字幕生成和视频文本检索。诸如videoChat [197]和Video-LLaMA [198]之类的几项工作是面向端到端聊天中心视频理解的大型多模态模型，基于LLM（大型语言模型）。然而，这些方法只能处理有限数量的帧以进行短视频理解。

为了解决由于视觉标记数量过多而在处理长视频时遇到的计算挑战，已经开发了多种方法。mPLUG-video [67]旨在处理视频理解任务，它首先采用基于TimeSformer的视频编码器有效地从稀疏采样的视频帧中提取特征，然后通过视觉抽象模块减少序列长度。Video-LLaVA [44]通过将图像和视频的视觉表示统一到单一语言特征空间中进行投影之前，在各种视频理解任务中表现出色。这种方法使得能够有效地利用LanguageBind [93]学习多模态交互。LLaMA-VID [69]通过用两种不同的标记表示每一帧来解决这个问题，分别是上下文标记和内容标记。上下文标记根据用户输入编码整个图像上下文，而内容标记则封装每一帧中的视觉线索。这种双标记策略显著减少了长视频的过载，同时保留了关键信息。与大多数现有工作尝试同时处理更多帧不同，MA-LMM [68]提出以在线方式处理视频，并在记忆库中存储过去视频信息，以便在不超过LLM的上下文长度限制或GPU内存限制的情况下，引用历史视频内容进行长期分析。

8 Discussion and Conclusion

8.1 Limitations and Future work

目前，高效的多模态大规模语言模型（MLLMs）的发展仍处于初级阶段，有很大的提升空间。作者以下面几点总结当前的情况：

目前，高效的多模态大规模语言模型在处理扩展上下文的多模态信息方面面临挑战，通常仅限于接受单张图像。这限制了能够处理更多多模态标记的更复杂模型的进步。这类模型对于如理解长视频、分析包含图像和文本混合的广泛文档等应用将非常有用，从而创造更多样化和强大的系统。
当前的主流高效多模态大规模语言模型主要支持双输入模态——图像和文本，以及单一的输出模态——文本。然而，现实世界包含了更广泛的模态。通过将高效多模态大规模语言模型的范围扩展到容纳更多样化的输入模态，并增强其生成能力，作者可以显著提高其多功能性并扩大其适用范围。
加强高效多模态大规模语言模型主要有两条途径。首先，整合更多样化的轻量级大规模语言模型可以使多模态大规模语言模型的设计更具适应性，便于定制以满足广泛的需求。其次，利用高质量的教学调优数据集可以使高效多模态大规模语言模型更好地理解和执行大量指令，从而增强其零样本学习能力。
在边缘设备上部署具备专门知识并能与现实世界互动的具身智能体，是高效多模态大规模语言模型的一个关键应用前景。拥有专业知识并能与现实世界互动的智能体具有深远的意义，有可能改变机器人学、自动化和人工智能等领域。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-07-22，如有侵权请联系 cloudcommunity@tencent.com 删除

性能