清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩，FLOPs 减少 94.8%，推理时间加快 69.6% ！

AIGC 先锋科技

发布于 2024-07-08 14:27:09

4110

视觉-语言模型（VLMs）在多种多模态任务中取得了显著的成功，但它们通常受到有限上下文窗口和高分辨率图像输入及视频处理的高计算成本的制约。视觉压缩可以通过减少视觉标记数量来缓解这个问题。先前的做法使用外部模块压缩视觉标记，并强制大型语言模型（LLMs）理解这些压缩后的标记，导致了视觉信息的丢失。然而，在压缩学习过程中，并没有充分利用LLMs对视觉标记的理解范式。作者提出了VoCo-LLaMA，这是第一种使用LLMs进行视觉标记压缩的方法。通过在视觉指令调整阶段引入视觉****压缩标记，并利用注意力蒸馏，作者的方法将LLMs理解视觉标记的方式提炼到对VoCo标记的处理中。VoCo-LLaMA促进了有效的视觉压缩，并在推理阶段提高了计算效率。具体来说，作者的方法在576的压缩比下实现了最小的性能损失，使得FLOPs减少了多达94.8%，推理时间加快了69.6%。此外，通过使用视频帧的时间序列压缩标记序列进行持续训练，VoCo-LLaMA展示了理解时间相关性的能力，在流行的视频问答基准测试中超过了之前的方法。作者的方法为解锁VLMs上下文窗口的完整潜力提供了一条有希望的道路，使得更多的可扩展多模态应用成为可能。

1 Introduction

视觉语言模型的出现导致了视觉理解的显著进步。特别是，高分辨率图像编码[7; 8]和更多视频帧的融合[9; 10]分别提高了大型视觉语言模型和大型视频语言模型的能力。然而，大量的视觉标记占据了大型语言模型宝贵的上下文窗口的大部分，导致了高昂的计算成本，如图1（a）所示。例如，在使用LLaVA-1.6[7]中的高分辨率图像输入时，一个分辨率为672×672的单个图像被划分为四个较小的块，每个块以336×336的分辨率进行编码。这个过程产生了包含2304个视觉标记的图像表示，占据了超过一半的上下文长度。此外，随着输入图像数量的增加，文本的上下文窗口将进一步受限。例如，Vicuna-1.5[11]在其4k上下文长度内只能处理大约7帧（7×576=4032个标记），考虑到文本输入。[9, 10]研究了将上下文长度扩展到百万级以缓解这个问题的影响，但这需要昂贵的计算资源（例如，[9]需要超过1000个v4 TPU）以及数据准备和框架开发方面的工程努力。

在有限的上下文长度内有效表示视觉信息对于解决挑战至关重要。一种有希望的方法是减少代表图像的视觉标记数量，理想情况下只需几个甚至一个标记。如图1（b）所示，以前的方法利用Q-Former[1]或直接的池化操作来“压缩”编码的视觉标记。这些方法用外部模块压缩视觉标记，并迫使LLM理解这些压缩的标记。这可能会破坏LLM理解原始未压缩视觉标记的既定范式，并导致视觉信息的丢失。然而，具有未压缩视觉标记输入的LLM已经具备视觉理解能力。因此，一种更直观的视觉压缩方法是提炼LLM如何理解视觉标记到其对压缩标记的处理中。

作者提出了VoCo-LLaMA，这是第一种利用大型语言模型固有功能的视觉压缩方法。如图1（c）所示，作者在视觉和文本标记之间引入了视觉压缩（VoCo）标记。通过简单修改注意力机制，作者首先通过插入VoCo标记隔离视觉和文本标记。随后，作者通过VoCo标记建立了视觉和文本标记之间的专属交互路径。这使得LLM本身能够压缩并提炼解析视觉标记，特别是它们上面的 Transformer 激活，到紧凑的VoCo标记中。得益于这种压缩策略，作者的方法实现了模态对齐，无需专门设计的文本-视觉跨模态融合模块[1, 12]。

作者的方法可以通过标准的视觉指令调整来学习视觉压缩，无需承担额外的训练阶段。此外，在推理阶段处理多个重复的视觉输入时，VoCo-LLaMA能够缓存并重用压缩的 Transformer 激活，提高计算效率并减少缓存存储的需求。VoCo-LLaMA可以实现576×的压缩率（将576个视觉标记压缩为单个VoCo标记）同时保持83.7%的性能。此外，作者观察到推理计算成本的降低，包括高达99.8%的缓存存储、94.8%的FLOPs和69.6%的推理时间。为了进一步研究作者提出的方法在处理视频输入时的有效性，作者利用通过压缩视频帧获得的时序VoCo标记序列来进一步探索VoCo-LLaMA的时态建模能力。在没有任何额外设计的情况下，VoCo-LLaMA在常见的视频问答基准测试中优于现有的视觉压缩方法，每个视频帧压缩成相等数量的标记。

2 Related Work

LLM与文本压缩。近年来，大型语言模型（LLM）引发了一场技术革命。随着训练数据和模型规模的不断扩大，模型在理解和生成语言方面表现出了卓越的能力，展示了LLM在处理复杂语言任务时的强大能力。特别是像LLaMA系列[17; 18; 20]，Vicuna[11]和Mistral[19]这样的模型，在许多研究工作中已成为基础模型或主要组成部分。然而，LLM中的有限上下文窗口大小一直是自然语言处理领域广泛讨论的话题。压缩文本以保留宝贵的窗口长度已被证明是一种有效的方法。长期的研究工作，包括，专注于将文本表示存储在 Transformer 中以实现密集的信息表示。展示了将长文本信息蒸馏到无提示的学生模型中的有效性。[28]通过学习软提示，在压缩长上下文中的信息方面取得了重大进展。同样，最近的研究[29; 30; 31]探索了在大型语言模型中压缩文本的潜在应用。尽管在视觉-语言模型中上下文长度限制同样普遍存在，但与语言模型领域相比，压缩视觉信息的讨论相对较少。作者的工作开创了利用LLM的学习能力压缩和蒸馏视觉标记中的信息，旨在填补VLM领域中这一空白。

VLM与视觉压缩。LLM的成功激发了视觉语言模型（VLM）的显著进步。通过将视觉编码器与LLM集成，VLM可以通过模态对齐和指令调优有效地实现跨模态理解和其他视觉语言任务。以前的方法证实了这种训练范式在视觉理解上的成功。VLM在图像上的成功应用也迅速扩展到了视频领域。通过输入更高分辨率的图像[7; 8]和更多的视频帧[9; 10]，VLM可以捕捉丰富的视觉信息以进行理解和生成。然而，随着代表输入图像的视觉标记数量的增加，它们占据了语言模型有限上下文窗口的很大一部分，甚至可能超过它。为了解决这个问题，以前的方法主要采用了Q-Former[1]，通过可学习的 Query 将图像映射到语言嵌入空间中的固定长度标记，压缩视觉信息。一种更近的方法[12]应用了具有可学习线性层的平均池化，通过多阶段训练策略压缩视觉特征。尽管这些方法在较低的压缩倍数下表现尚可，但当压缩标记的数量减少时，它们会导致大量有价值的视觉信息丢失。VoCo-LLaMA将LLM理解视觉标记的方法蒸馏到它们对压缩标记的处理中，显著减少了视觉压缩过程中的信息丢失。

3 Method

作者首先介绍了VoCo-LLaMA，这是一个大型语言模型，能够通过注意力蒸馏将冗长的视觉标记压缩成紧凑的VoCo标记，这使得能够高效地表示视觉信息。然后，作者在这些压缩标记的基础上继续训练VoCo-LLaMA，使作者的模型能够捕捉视频数据中的时间依赖性。

Vision Compression

VoCo-LLaMA

Temporal Modeling

Implementation Details

关于训练策略和数据，如第3.2节所述，VoCo-LLaMA在视觉指令调整阶段只需要学习插入和压缩VoCo标记。作者遵循常见的视觉语言模型[2, 7]，将图像输入编码为视觉标记，使用视觉编码器和线性投影器。作者采用预训练的CLIP-ViT-L[40]作为作者的视觉编码器。对于预训练的大型语言模型，作者使用Vicuna-7B[11]。在不引入VoCo标记的情况下，作者首先使用LLaVA过滤的CC3M[41]数据集对视觉编码器和语言模型进行对齐，同时保持视觉编码器和语言模型冻结。在VoCo-LLaMA的指令调整阶段，结合多个图像理解任务对于学习可扩展的图像压缩模型至关重要。因此，作者受到[12]的启发，使用[7]构建指令对。对于视频调整，作者进一步使用WebVid[42]和Video-ChatGPT[39]的QA对。

作者在相同的训练设置和数据上对几种常见的压缩策略进行了实验以进行比较。对于采用Q-Former的压缩策略，作者采用了[1]中的架构，并将 Query 数量配置为1，从而得到单个压缩标记。对于采用平均池化的压缩策略，作者遵循[12]中单内容标记的设计。

4 Experiments

Datasets

在本工作中，作者对几个常见的视觉理解基准测试进行了视觉压缩实验。特别是，作者报告了在GQA [43]、MMB (MMBench) [44]、MME [45]、POPE [46]、SEED-Bench [47]、SQA（基于图像的ScienceQA）[48]和VQA（VQA V2）[49]上的结果。通过观察模型在这些图像理解基准测试上压缩前后的表现（即初始视觉标记/ VoCo标记），作者可以观察到视觉压缩过程中视觉信息丢失的影响。作者按照[2]中概述的细节，评估了这些视觉理解基准上的性能。至于视频领域，作者评估了在几个视频问答基准上的零样本性能。MSVD-QA [50]是一个包含1,970个视频片段和50,505个问答对的视频问答数据集，建立在微软研究视频描述语料库[51]之上。MSRVTT-QA [50]是一个大规模的视频问答数据集，包含10K个视频和243K个问答对，场景复杂，基于MSR-VTT数据集[52]。ActivityNet-QA [53]是一个完全标注的视频问答数据集，包含58K个问答对，来源于ActivityNet数据集[54]中的5,800个复杂网络视频。

Vision Compression Configuration

在视觉压缩的主要实验中，作者将图像的所有视觉标记压缩为一个单独的VoCo标记。为了严格量化在压缩过程中VoCo-LLaMA的性能损失，作者设计了两种比较训练设置：上限模型，代表了最佳的压缩性能。视觉压缩模型的理想情况是获得与上限模型相同的视觉理解能力。以及下限模型，代表了最差的压缩性能。

初始化模型是通过将VoCo标记以类似于VoCo-LLaMA的方式集成进行训练，而不修改注意力 Mask 策略。在推理过程中，作者采用标准的因果注意力 Mask 。这种设置有效地控制了由于引入额外的特殊标记而引起的性能波动。相比之下，随机压缩模型在与初始化模型相同的设置下进行训练。在推理过程中，作者将文本标记的可见性限制仅为VoCo标记，隔离视觉信息。这种设置代表了没有视觉压缩训练的场景，为评估提供了 Baseline 。根据性能边界模型，随后可以计算出压缩保持率为的结果下限上限下限。

Results

视觉压缩。表1展示了VoCo-LLaMA在视觉压缩方面的结果。为了探索作者方法的最大潜力，作者报告了可达到的最高压缩比，将视觉标记压缩为一个单一的VoCo标记。作者在各种常见的视觉理解基准上报告了压缩模型的结果，以及根据第4.2节引入的上界和下界模型定义的压缩保持率。可以观察到，在高达576倍的极端高压缩比下，作者的方法在很大程度上保留了原始视觉信息。具体来说，作者在七个广泛使用的基准上平均实现了83.7%的压缩保持率。特别是在MMBench、POPE和VQA上，作者的方法在压缩过程中保持了超过85%的性能。结果表明，VoCo-LLaMA可以有效压缩视觉标记。此外，作者的方法在所有基准上始终优于随机压缩的性能下界模型。这表明VoCo-LLaMA的优点，如显著减少上下文长度和提高计算效率，超过了由压缩引起的任何潜在性能损失。

作者还与先前的基于学习的常见方法（即Q-Former和平均池化）进行了比较，用于视觉标记压缩。作者的方法在所有基准上显著优于先前的方法。具体来说，作者观察到平均压缩保持率提高了19.6%，超过了平均池化压缩策略。相比之下，尽管Q-Former在32个 Query 中捕捉视觉特征的能力令人印象深刻，但当 Query 数量减少到个位数时，其性能会大幅下降。这证明了VoCo-LLaMA的压缩方法，它利用大型语言模型自身的知识蒸馏，比平均池化或基于 Query 的压缩保持了更有价值的视觉信息。

VoCo标记的数量。作者评估了VoCo标记的数量对视觉压缩性能的影响。如表2所示，作者报告了随着VoCo标记数量从1增加到128，VoCo-LLaMA在四个广泛使用的基准上的结果以及这四个基准的平均压缩保持率。图4展示了随着VoCo标记数量的变化，压缩性能保持的趋势，其中绿色和红色线条分别表示压缩性能的上界和下界。作者采用了与主实验相同的训练设置和数据。

图4：随着标记数量增加的压缩性能总体趋势。作者报告了表1中列出的所有基准的平均压缩保持率。

可以观察到，随着VoCo标记数量的增加，模型的整体压缩性能呈现上升趋势。在少于10个标记的范围内增加标记数量，可以显著提高压缩性能。最终，在执行128个VoCo标记时，模型的平均压缩性能保持率为97.7%，这表明在压缩到100多个标记时，由于压缩造成的性能损失几乎可以忽略不计。有趣的是，作者发现在使用128个VoCo标记进行训练时，在SEED-Bench上的结果超过了模型最初性能的上限。

压缩方法。作者在视觉压缩方面将作者的方法与LLaMA-VID进行了比较，特别是评估了其利用上下文和内容标记的完整模型。为了公平比较，VoCo-LLaMA在完全相同的设置下进行训练，并在此实验中应用了相同的视觉编码器EVA-G [55]。如表3所示，在使用单个内容压缩标记时，作者的方法在所有方面都优于先前的方法，甚至在使用多个上下文标记时也超过了LLaMA-VID的性能。特别是，作者在GQA和VQA基准上分别观察到2.8和3.7的改进。此外，作者检查了在VoCo-LLaMA中上下文标记的作用，这些标记促进了视觉标记与文本之间的跨模态交互。与LLaMA-VID所示的影响相比，上下文标记的重要性并不那么显著，可能是由于VoCo-LLaMA的固有设计已经促进了跨模态的校准。

推理效率。在推理阶段，VoCo-LLaMA可以带来显著的效率和存储收益。由于作者模型的设计，压缩图像的表示（即，在VoCo标记上的 Transformer 激活）可以以KV缓存的形式存储并重复使用。作者在推理过程中对CUDA时间、FLOPs和KV缓存存储大小进行了比较分析，并将作者的方法与 Baseline 方法和完整缓存方法进行了比较。正如其名称所示， Baseline 方法不采用任何缓存策略，直接编码和推理图像。相比之下，完整缓存方法将所有视觉标记的未压缩 Transformer 激活存储为KV缓存。更具体地说，作者遵循[56]的方法，存储每个 Transformer 层的键和值。如表4所示，作者在使用相同长度的文本提示和单图像输入的NVIDIA A100-SXM4-40GB上对三种方法的推理效率进行了分析。与没有缓存策略的 Baseline 模型相比，通过使用长度为一的KV缓存缓存压缩标记，VoCo-LLaMA在CUDA时间和FLOPs上分别实现了69.6%和94.8%的显著减少。与完整缓存策略相比，作者的方法在节省99.8%的缓存存储的同时，实现了更低的CUDA时间和FLOPs，这证明了作者视觉压缩方法带来的推理效率增益。有关推理效率的进一步讨论和详细信息，请参考附录B。

视频理解。 作者进一步评估了VoCo-LLaMA在三个广泛使用的视频理解基准上的性能，分别报告了输入图像分辨率为224和336的结果。首先，作者讨论了利用视觉压缩的视频理解方法。为了确保公平比较，作者采用了与先前方法[12]相同的压缩比，将每个视频帧压缩成2个VoCo标记，用于视频理解模型中的训练和推理。作者的方法在所有三个基准上一致优于先前的视频压缩方法。具体来说，在MSVD-QA和MSRVTT-QA数据集上，VoCo-LLaMA分别实现了72.3%和61.1%的准确率，相对于先前最佳方法分别有3.7%和5.9%的绝对提升。此外，作者的方法在两个数据集上分别达到了最高的3.9和3.5分。

与不采用视觉压缩的视频理解方法相比，作者的方法仅用2个VoCo标记来表示每个视频帧，在与每帧使用256个或更多视觉标记的方法的竞争中表现出强烈的竞争力。为了进一步探索VoCo-LLaMA的潜力，作者选择将视频帧压缩成在0数量级（即8个标记）内表现出最佳压缩性能的VoCo标记数量。值得注意的是，随着标记数量的增加，作者的方法有效地利用了额外的视觉信息，从而提高了性能。作者还分析了视频领域中使用视觉压缩引起的性能损失，具体细节见附录D。总之，VoCo-LLaMA利用其高效的视觉压缩优势，在视频数据上实现了鲁棒的性能，同时绕过了复杂的时间建模设计。

5 Limitations

VoCo-LLaMA提出了一种新型的视觉压缩解决方案，但仍然存在几个局限性。作者的训练范式虽然在使模型能够理解压缩标记方面是有效的，但无意中削弱了模型理解未压缩视觉标记的能力。此外，作者的模型在处理具有不同细粒度压缩 Level 的标记方面也存在困难。解决这些局限性可能会为无限长度输入视觉-语言模型打开大门。