哈工大提出即插即用压缩模块,与采用裁剪技术的 MLLMs无缝集成,提高模型文档图像理解能力 !
将高分辨率文档图像裁剪成多个子图像是目前多模态大型语言模型(MLLMs)进行文档理解最广泛采用的方法。大多数当前的文档理解方法保留了子图像中的所有标记,并平等对待它们。 这种做法忽视了它们之间信息量的差异,导致了图像标记数量的显著增加。为了进行更自适应和高效的文档理解,作者提出了基于标记 Level 关联引导的压缩方法,这是一种无需参数调整即插即用的标记处理优化方法。 首先,作者提出了一种基于每个 Patch 标记之间关联的新颖方法来评估模式重复性。 这种方法能够识别出冗余标记,从而确定子图像的信息密度。其次,作者提出了一种标记 Level 的采样方法,通过深入探究标记与 Patch 标记之间的关联,高效地捕捉到最具信息性的标记。 通过整合这些策略,作者开发了一个即插即用的标记 Level 关联引导压缩模块,可以与采用裁剪技术的MLLMs无缝集成。这个模块不仅提高了训练和推理过程中的处理速度,同时保持了相当的性能。作者使用最先进的文档理解模型 mPLUG-DocOw1.5进行了实验,并通过与其他压缩方法的广泛比较。 源代码可以在https://github.com/JiuTian-VL/TokenCorrCompressor找到。
文档理解是一项至关重要且复杂的任务,它结合了计算机视觉与自然语言处理。挑战来自于处理具有不同宽高比的的高分辨率文档图像,以及解析格式多样的稀疏或密集文本,如图形或表格。近期,多模态大型语言模型(MLLMs)的快速发展在图像理解和指令遵循方面展示了显著的能力。一些研究通过整合高分辨率图像处理和文档解析能力,进一步增强了这些模型,从而发展出了复杂的文档理解模型。
尽管取得了令人印象深刻的成果,当前的MLLMs在高效文档理解方面仍存在困难。如图1(a)所示,这些模型将原始高分辨率图像裁剪成多个不重叠的低分辨率子图像。大量的视觉标记由视觉编码器从所有子图像中编码,然后集体输入大型语言模型(LLM)。这种范式使得MLLMs难以扩展到更高分辨率的文档,因为需要处理的视觉标记数量急剧增长。这显著阻碍了当前文档理解MLLM的可扩展性,并降低了其效率。
为了高效处理高分辨率图像,人们普遍认为子图像内的标记具有不同程度的信息性[15; 21; 51],这允许对子图像进行压缩。因此,作者不仅可以简单地将所有标记输入MLLMs,还可以深入研究每个子图像并选择最具信息性的标记,如图1(b)所示。这将显著减少标记数量,并有助于构建更高效的文档理解模型。基于这一思路,产生了两个挑战:
1) 如何确定每个子图像的压缩比;
2) 如何设计一种压缩策略来采样信息性标记。
为了应对这些挑战,衡量每个标记的信息性至关重要。在本文中,作者尝试利用标记之间的相关性来反映相对信息性程度。具体来说,作者提出了一个基于标记级相关性的压缩方法,并从两个方面探索标记级相关性:
Patch - Patch 和CLS- Patch 。
1) 使用 Patch - Patch 相关性来确定压缩比。作者观察到子图像内的一些标记表现出重复的模式,可以认为是相对信息性较低的。为了识别这些信息性较低的标记,作者研究 Patch - Patch 相关性来量化每个标记的模式重复程度,并通过高度重复标记的比例定义子图像的信息密度。这个信息密度随后可以用来作为确定每个子图像压缩比的线索。
2) 利用CLS- Patch 相关性来采样标记。[CLS]标记在与信息性 Patch 标记表现出较高相关性时,能够聚合和总结图像的描述性全局信息。因此,作者可能会基于[CLS]和 Patch 标记之间的相关性检测并采样最具信息性的 Patch 标记。基于这一思路,为了有效地采样最具信息性的标记,作者分析CLS- Patch 相关性并形成一个概率分布以指导采样过程。
在标记级相关性的指导下,作者构建了一个即插即用的、针对高分辨率图像的标记级相关性引导压缩模块。它可作为插件应用于使用裁剪方法的高分辨率MLLMs,在几乎没有性能损失的情况下提高训练和推理速度。作者使用mPLUG-DocOwl1.5[11]进行了实验,这是文档理解方面的最先进模型。实验结果表明,作者提出的方法在保持与DocOwl1.5相当的性能的同时,实现了最大11.5%的压缩比。进一步的广泛消融实验也验证了该方法的有效性。
作者的贡献总结如下:
为了使模型能够理解文档图像,一个主要挑战是处理高分辨率图像的能力。目前,处理方法主要有两种:一种是通过启发式裁剪[22; 24; 41; 50],另一种是将高分辨率图像裁剪至可以被视觉编码器适当识别的大小。Pix2Struct [17]首次提出了一个可变分辨率的输入表示,用于文档理解。尽管它在高分辨率感知方面显示出巨大潜力,但其语言理解能力受到了轻量级语言解码器使用的影响,而且其视觉编码器需要从头开始训练,无法利用现有的预训练模型。针对这些问题,UReader [44]进一步提出了一个形状自适应裁剪模块,将原始图像裁剪成多个低分辨率的、不重叠的子图像,以适应预训练视觉编码器的大小,并对基于MLLMs的文档理解任务进行了初步探索。由于UReader展现了强大的高分辨率感知能力和语言理解能力,基于裁剪的高分辨率处理方法被后续工作广泛采用。例如,Monkey [18]采用滑动窗口技术进行图像裁剪,而TextMonkey [21]进一步引入了偏移窗口注意力机制,以实现不同子图像间的互动。mPLUG-Docow11.5 [11]使用了与UReader相同的形状自适应裁剪模块,并通过统一结构学习增强了文档理解能力,达到了最先进的表现。尽管这些模型在文档理解方面具有强大的能力,但它们仍然效率低下。作者提出了基于标记级相关性的压缩方法,以增强MLLMs中文档理解的效率。
将高分辨率图像引入多模态语言模型(MLLM)将显著增加视觉标记的数量,这需要采用方法来减少视觉标记序列的长度,以便进行有效的训练和推理。大多数现有研究选择使用具有压缩能力的视觉到文本模块,包括结合可学习 Query 和交叉注意力机制,具有步长的卷积层[11; 23],或者简单地将相邻标记沿通道维度拼接成一个新的标记[7]。尽管这些方法展示了有希望的标记压缩能力,但在基于裁剪的高分辨率MLLM中,它们仍然不够高效,因为不同的标记具有不同的信息量。先前的研究在自然语言处理(NLP)和计算机视觉(CV)领域内独立地探索了用于高效 Transformer 处理的标记压缩。然而,据作者所知,对多模态领域中标记压缩的研究仍然相对有限。同时,Shang等人[33]提出了一种PruMerge算法,根据视觉标记与类标记和空间标记的相似性,自适应地选择未剪枝的视觉标记。然而,他们没有考虑标记 Level 的相关性,从而限制了其自适应压缩能力。
所提出方法的整体架构如图2所示。遵循先前研究,模型首先将高分辨率输入图像裁剪成多个不重叠的子图像,以适应视觉编码器的预训练大小。所有子图像以及调整大小的全局图像被送入视觉编码器以获得视觉标记。在先前的方法中,视觉标记序列通过视觉到文本模块与文本信息对齐。然后它们与文本标记连接起来,共同送入大型语言模型(LLM)进行处理,这对于高分辨率文档图像来说极为低效。在本研究中,作者引入了一个基于标记 Level 相关性的压缩模块(Token-level Correlation-guided Compressor),以自适应地压缩视觉标记。基于标记 Level 相关性的压缩模块首先使用信息密度计算模块自适应地决定每个子图像的压缩比,这将在3.1节中讨论。之后,该模块利用一种相关性引导的标记采样方法来采样最具信息性的标记,这将在3.2节中讨论。基于标记 Level 相关性的压缩模块的工作流程将在3.3节中详细说明。
文档图像通常包含大片的空白区域和色彩块,这些在视觉上呈现出重复的图案,对于理解图像来说可以被认为是相对信息量较少且冗余的。为了确定子图像的适当压缩比,需要识别出冗余区域,并反映图像中独特区域的比例。
由于 Patch Token 通常包含图像内的局部信息,作者认为与视觉上重复的 Patch 对应的 Patch Token 之间高度相关。这启发作者探索 Patch - Patch 相关性以识别冗余 Token 。具体来说,作者利用注意力机制中的键(key)来表示每个 Token ,便于计算成对 Token 之间的相似度[2]。如图3所示,可以观察到图像中对应于视觉上重复 Patch 的 Token 有许多高度相似的对应 Token ,这验证了作者的假设。这一发现使得作者可以区分冗余的 Patch Token 与其他 Token 。
基于这一发现,作者设计了一种方法,用于自适应地计算子图像中非冗余 Token 的比例,这一比例被称作信息密度。具体来说,作者基于CLIP-ViT中的注意力键计算成对 Token 之间的余弦相似度。对于给定的 Token ,如果相似度超过阈值的 Token 数量超过上限,那么该 Token 将被视为冗余。作者计算子图像中的冗余 Token 数量占总 Token 数量的比例作为信息冗余度,记作,而表示信息密度。最后,作者将信息密度视为每个子图像的压缩比。Patch - Patch 相关性指导的信息密度计算在算法1中详细说明。
算法2 Token 级相关性指导的压缩
作者使用了mPLUG-DocOwl1.5 [11]进行了实验。
作者在10个数据集上评估了提出的方法,基于之前的实验,包括富含文本的数据集如DocVQA [28]、InfoVQA [27]、DeepForm [38]、KLC [37],表格数据集如WTQ [30]、TabFact [4],图表数据集如chartQA [26],自然数据集如TextVQA [35]、TextCaps [34],以及网页截图数据集VisualMRC [39]。如表1所示,作者将结果与先前的无OCR方法[8;10;18;21;43;44]进行了比较,并且与其他一些标记压缩方法[33]也进行了对比。作者的方法优于许多先前的无OCR方法。与基础模型DocWll.5相比,在即插即用模式下,提出的方法取得了可比较的性能,而pruMerge和pruMerge+[33]则可能导致性能显著下降。作者的方法超过了许多先前的无OCR方法。与基础模型DocWll.5相比,在即插即用模式下,提出的方法以平均66%的压缩比取得了可比较的性能。同时,pruMerge和pruMerge+[33]会导致性能显著下降。经过1个周期的微调后,作者可以进一步缩小与DocWll.5的性能差距。
作者进一步研究了不同自适应压缩方法在不同数据集上的标记压缩比。每个裁剪的子图像被视为一个独立样本,作者计算了所有子图像的压缩比。在这里,压缩比定义为压缩后的标记数除以原始标记数。较低的压缩比表明压缩更有效。如图5和图6所示,在不同数据集上,PruMerge和PruMerge+算法产生的压缩比保持在相对固定的区间内,而提出的方法在不同数据集上表现出显著不同的压缩比。这一结果表明,作者的算法能够自适应地识别不同数据集的信息分布模式,并确定最合适的压缩比。不同数据集上的压缩比更多结果见附录B.2。总的来说,提出的方法在不同数据集上实现了66%的平均压缩比,最大压缩比达到11.5%,显著提高了模型的效率。
-patch相关性引导的标记采样有效性。对于局部信息挖掘中的采样策略,作者在相同的采样比下比较了-patch相关性引导的采样与统一采样和随机采样。如表2所示,标记相关性引导的采样显著优于统一采样和随机采样。
信息密度计算的有效性。作者还进行了一组实验,以验证自适应采样比的有效性。作者在局部信息挖掘中设置了一组固定的采样比、和以进行比较。如图2所示,对于固定的采样比设置,尽管固定采样比设置在平均上保留了更多标记,但其性能仍无法超越作者的自适应采样比方法。
全局与局部信息挖掘的有效性。在表3中,作者对两个模块:全局信息挖掘和局部信息挖掘进行了消融实验。如表3所示,简单地移除任何一部分都将导致性能下降。
为了验证CLIP-ViT低层的注意力图可以有效指导信息性标记的采样,作者进行了实验,以检查在局部信息挖掘中从不同层选择注意力图的效果。
为了直观验证所提出方法的有效性,作者进行了一系列可视化实验。首先,作者可视化了在信息密度计算过程中识别出的冗余标记。如图8所示,未 Mask 区域指示了识别出的冗余标记的位置,这些位置都集中在视觉上重复的区域。这些结果验证了作者的信息密度计算方法的有效性。同时,计算出的信息密度准确反映了不同子图像的信息丰富程度的相对程度,从而展示了作者自适应压缩能力的效果。关于不同数据集上信息密度计算的可视化结果更多可见附录C.2。
图7:自适应压缩比与固定压缩比的对比。作者在多个固定值上设置采样比,并在各种数据集上进行测试。尽管固定比率产生了更高的平均压缩比,但这些评估分数未能超过作者自适应压缩方法的成绩。
作者还可视化了由-patch相关引导的采样方法实现的标记采样结果。选取了具有不同分布模式的几个样本,以验证作者的方法的有效性。在图9中可以观察到,通过局部信息挖掘采样的标记主要集中在对信息区域的采样,这验证了作者的方法的有效性。更多结果可见附录C.3。
在本文中,作者提出了一种标记级相关引导的压缩方法,以增强MLLMs中的文档理解效率。实验结果表明,在保持性能可比性的同时,显著减少了标记序列的长度。
所提出的方法仍存在一些局限性,包括需要微调模型以最小化与基础模型性能的差异,以及抑制端到端学习能力的问题。作者希望在未来工作中解决这些问题。
[1].Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding.