清华 & 阿里开源 ConvLLaVA | 替代 Vision Transformer，解决图像处理中 Token 过多问题！

AIGC 先锋科技

发布于 2024-07-08 13:29:17

1120

发布于 2024-07-08 13:29:17

文章被收录于专栏：AIGC 先锋科技

高分辨率大型多模态模型（LMMs）面临着视觉token过多和二次视觉复杂性的挑战。当前的高分辨率LMMs解决了二次复杂性问题，但仍然生成过多的视觉token。然而，视觉token的冗余是关键问题，因为它导致了更大的计算量。为了减轻这个问题，作者提出了ConvLLaVA，它采用ConvNeXt这种分层 Backbone 网络作为LMM的视觉编码器，以替代Vision Transformer（ViT）。ConvLLaVA将高分辨率图像压缩成信息丰富的视觉特征，有效防止生成过量的视觉token。为了增强ConvLLaVA的能力，作者提出了两个关键优化。由于在直接应用于高分辨率时，低分辨率预训练的ConvNeXt表现不佳，作者更新它以弥合这一差距。此外，由于ConvNeXt原始的压缩比对于更高的分辨率输入是不够的，作者训练了一个后续阶段以进一步压缩视觉token，从而减少冗余。这些优化使得ConvLLaVA能够支持1536×1536分辨率的输入，仅生成576个视觉token，能够处理任意宽高比的图像。实验结果表明，作者的方法在主流基准测试中与最先进的模型取得了具有竞争力的性能。ConvLLaVA模型系列已在https://github.com/alibaba/conv-llava公开提供。

1 Introduction

大型多模态模型近年来取得了显著进展，在包括图像和视频理解、数字代理开发[53]和机器人技术[24]在内的多个领域表现出卓越性能。要理解和处理广泛任务和复杂场景的必要性凸显了视觉编码器的重要性，而视觉编码器主要是指Vision Transformer。然而，ViT的二次空间复杂性和过多的视觉标记输出限制了其在多样和高分辨率任务中的应用。过多的视觉标记导致大型语言模型的计算负担大幅增加，远远超过了视觉编码器中二次空间复杂度引起的计算成本。这种视觉标记的冗余不仅牺牲了效率，还阻碍了视觉信息的有效提取[31；11]。尽管提出了一系列方法（表1；[31；27；49]）来修正ViT的二次空间复杂度，但它们未能解决视觉标记冗余的关键问题[5；28]。

分层视觉 Backbone 网络[15；16；10]，可以作为ViT的对立面，由于其固有的信息压缩过程，很好地解决了过多视觉标记的问题。具体来说，特征在分层 Backbone 的各个阶段中按顺序压缩。与ViT相比，它们将视觉特征压缩了大约32倍[15；34]。因此，在相同分辨率下，它们产生的视觉标记数量不到ViT的四分之一，极大地减轻了LLM的计算负担。此外，分层视觉编码器通常设计为线性空间复杂度[34；10；15]，有效解决了过量的视觉标记和二次视觉复杂度问题。

在分层视觉编码器中，作者选择采用ConvNeXt，因为其优秀的性能[48；56]和现成的对比语言-图像预训练权重（CLIP；[41]）的可用性，这是LMMs主流视觉编码器所采用的。然而，直接用ConvNeXt替换ViT会导致在一般能力基准测试上的性能下降（第3.2节）。

这可以归因于ConvNeXt是在低分辨率上进行预训练的，而作者是直接将其应用于高分辨率[17；43]。此外，与ViT的预训练数据[41]相比，ConvNeXt的预训练数据被认为是低质量的。为了解决这些问题，作者提出更新视觉编码器而不是冻结它。

令人惊讶的是，更新视觉编码器使得ConvNeXt在一般基准测试上的表现与ViT相当。在细粒度基准测试中，作者发现ConvNeXt优于ViT。这些发现表明，即使将视觉标记压缩到相等数量，更高分辨率模型的特征仍然包含更多的细粒度信息。这一观察启发作者进一步增加分辨率。

然而，将分辨率进一步扩展到1024以上会导致产生过量的视觉标记。为了减轻这个问题，作者使用额外的ConvNeXt阶段进一步压缩视觉信息，以增强分层 Backbone 网络固有的信息压缩。视觉输入将被压缩64倍而不是32倍，以进一步减少冗余。因此，当处理1536分辨率输入时，ConvLLaVA只生成576个视觉标记，这与处理336分辨率输入时ViT生成的视觉标记数量相当（第3.3节）。

总之，作者介绍了ConvLLaVA，其视觉编码器是一个五阶段的ConvNeXt。ConvLLaVA将高分辨率图像压缩成富含信息的视觉特征，有效避免了过量视觉标记的产生（见表1；）。此外，由于卷积的平移等价性，ConvLLaVA可以在低分辨率上进行训练，在更高分辨率上进行评估，并且可以处理任意宽高比的图像。

广泛的实验已经证明了作者方法的有效性。ConvLLaVA 7B在包括MME[13]、MMBench[33]、SEEDBench[22]、RealWorldQA[50]、TextVQA[44]、DocVQA[38]、POPE[26]和MMVet[57]在内的各种基准测试中均优于LLaVA-1.5-13B。

2 Related Work

大型多模态模型。 为了利用大型语言模型的潜力并融入视觉信息，BLIP系列模型[23; 9]提出了Q-former，它生成视觉标记供LLM解释视觉数据。同时，LLaVA[32]采用单一线性层将视觉特征映射到词嵌入空间，使得LLM能够感知视觉特征。这些方法使用ViT作为视觉编码器[41, 12, 3, 28, 60]，主要是为低分辨率视觉数据（例如224或336分辨率）量身定制的。此外，Qwen-VL[2]和mPLUG-owl2[55]通过更新ViT的权重将ViT的分辨率扩展到448。然而，由于ViT的二次空间复杂度，这些方法未能进一步扩大分辨率，而ConvNeXt可以以线性成本增加来扩大分辨率。Qwen-VL[2]和mPLUG-owl2[55]还探讨了通过重采样器减少视觉标记。然而，近期研究[3, 11]显示，卷积或简单的拼接比重采样器性能更好。

带裁剪的高分辨率LMMs。 高分辨率LMMs的代表性裁剪方法是在LLaVA-NExT[31]中引入的，该方法将图像划分为四个块，每个块分别由ViT独立编码，然后拼接起来供LLM处理。一系列方法采用了裁剪以扩大分辨率[54, 29, 27, 11]。尽管裁剪有效降低了ViT的复杂性，但它牺牲了图像的结构完整性，从而可能影响整体性能。此外，裁剪引入的大量视觉标记对LLM造成了重大复杂性，并挑战了LLM的检索能力[11]。

带额外视觉编码器的高分辨率LMMs。 对于高分辨率图像理解，结合辅助视觉编码器不会显著增加视觉标记的数量。Vary[49]和Deepsek-VL[35]使用SAM[20]作为高分辨率视觉编码器来增强ViT的特征。MiniGemini-HD[25]和LLaVA-HR[36]采用ConvNeXt[17]处理高分辨率图像，并使用跨注意力或 Adapter 从高分辨率输入中提取特征。然而，这些方法通过附加视觉编码器和相关超参数引入了额外的复杂性。此外，从低质量表示（例如，LAION-CLIP-ConvNeXt）中提取特征可能会潜在地损害LMMs的性能[14, 51]。

3 ConvLLaVA

作者展示了如图1（b）所示的ConvLLaVA，其视觉编码器是一个五阶段的ConvNeXt。首先在3.1节中介绍整体架构以及作者ConvLLaVA的优势。

两个主要优化：更新视觉编码器和训练额外的阶段将在3.2节和3.3节中介绍。

ConvNeXt as Standalone Visual Encoder

ConvLLaVA的架构与大多数流行的一般LMMs相同，例如LLaVA [32, 30]，Qwen-VL [2]，以及VILA [28]。这些模型如图1（a）所示，包含三个组件：视觉编码器，大型语言模型，以及视觉语言投影器。具体来说，视觉模型将视觉输入编码为潜在视觉嵌入。然后，视觉语言投影器将这些潜在视觉嵌入映射到语言模型的嵌入空间。在给定由语言分词器编码的视觉嵌入和文本嵌入的情况下，这些嵌入沿着序列维度进行拼接，然后传递给语言模型。最后，视觉语言模型使用语言建模损失[42]进行训练。考虑到作者的研究主要关注视觉编码器，作者遵循LLaVA-1.5 [30]的做法，使用两层MLP和Vicuna-7B [59]作为投影器和语言模型。作者没有使用CLIP-VIT [41]，而是引入了CLIP-ConvNeXt [34; 17]作为独立的视觉编码器。

ConvNeXt. ConvNeXt的基本块包括深度卷积和前馈网络[34]。深度卷积具有77的核大小，其计算复杂度为，其中、和分别是核大小、通道数和视觉标记数。相比之下，ViT中的自注意力复杂度为。因此，ConvNeXt的空间复杂度显著低于ViT。输入最初由一个_44_的非重叠卷积下采样层处理。随后，特征依次送入ConvNeXt的四个阶段，每个阶段包含几个ConvNeXt块。特征图在每个阶段之间通过2下采样，维度扩大2。ConvNeXt的输出下采样为32，而不是ViT-L的_14_。因此，与ViT相比，ConvNeXt产生的视觉标记不到_1/4_，这减轻了语言模型的计算负担。得益于线性空间复杂度和较少的视觉标记，从ViT-L（红线）到ConvNeXt（蓝线）的LMMs计算减少几乎为_8_，如图2所示。

五阶段ConvNeXt。 利用ConvNeXt作为视觉编码器对于编码768分辨率图像是有效的，然而将分辨率扩展到768以上会产生过多的视觉标记。先前的研究[31; 25]忽略了探索压缩视觉标记的方法，尽管压缩视觉标记已被证明是合理的，因为在视觉表示中存在冗余[28; 5]。这些研究建议作者可以进一步使用ConvNeXt下采样视觉特征。作者提出通过将第5阶段的ConvNeXt块整合到原始的四阶段模型中来压缩视觉特征。

作者更愿意使用ConvNeXt块而不是其他结构，基于以下三个原因：

(1)五阶段ConvNeXt作为一个整体，可以作为其他LMMs的视觉编码器进行转移，而在投影器中降采样并不提供这种灵活性；

(2) ConvNeXt块保持了平移等方差性，使它们能够有效地处理任何宽高比的图像，而注意力块则不能；

(3)降采样阶段对性能的影响最小，除了重采样器持续地比其他方法表现不佳，这一点由[3; 11; 39]证实。最后，作者将整个五阶段ConvNeXt表示为ConvNeXt。

在1536分辨率下，ConvNeXt将视觉标记的数量减少到576，与ViT在336分辨率下的数量相当。这将使得从原始ConvNeXt（蓝线）到ConvNeXt（绿线）的总计算量减少_6w.r.t._，如图2所示。作者的方法在计算效率上比裁剪方法更高，后者通常会产生过多的视觉标记[39; 31; 27]。此外，通过消除裁剪和合并的需求，ConvLLaVA避免了全局视图，从而进一步减少了视觉标记的数量。

Updating ConvNeXt is Essential

主流优化方法[32; 28]在训练期间冻结视觉编码器，因为其性能更好，比更新视觉编码器[18]更有效率。然而，在训练期间冻结ConvNeXt并不是最佳选择。因此，作者进行了深度分析，以证明冻结视觉编码器（即ConvNeXt）会继承预训练的缺陷，而更新ConvNeXt可能既能提高表示的质量，也能使它们适应高分辨率输入。

冻结ConvNeXt的设置。 优化过程与LLaVA-1.5[30]相同。在训练投影仪和指令微调时，作者分别使用了相同的558k字幕数据集和665k指令数据。作者的视觉编码器CLIP-ConvNeXt-L在256分辨率上进行预训练，并在基于LAION-2B[34; 17]的320分辨率上进行微调。当作者将ConvNeXt作为视觉编码器时，直接将分辨率提高到512和768。对于 Baseline ，作者使用了在OpenAI WIT数据集[41]上以336分辨率预训练的ViT。在768分辨率下，ConvNeXt的训练和推理速度与336分辨率下的ViT相当。因此，作者认为768分辨率ConvNeXt与336分辨率ViT之间的比较是公平的。详细的训练过程如表12所示。

基准测试。 作者使用四个标准基准来评估结果：两个通用能力基准，MMbench[33]，SEEDBench[22]，以及两个细粒度的OCR基准，TextVQA[44]和DocVQA[38]。值得注意的是，作者对TextVQA的评估过程与LLaVA-1.5[30]略有不同，因为作者使用了VLMEVALKIT，该工具在问题中不包括OCR标记。

冻结视觉编码器的结果。 如表2所示，作者观察到以下结果：

(1) 在OCR基准上，ConvNeXt显著优于ViT。在TextVQA和DocVQA上，512和768分辨率的ConvNeXt均优于ViT，这是由于其更高的分辨率[18, 55]。即使视觉标记更少，512分辨率的ConvNeXt仍然优于336分辨率的ViT。

(2) ConvNeXt的整体通用能力不如ViT。对于通用基准，在SEEDBench上，768分辨率的ConvNeXt与ViT表现相当。而在MMBench上，ConvNeXt的表现则不如ViT。

作者假设在MMbench上性能差距的原因有两个：

首先，ConvNeXt在低分辨率上进行预训练，但直接应用于高分辨率。这种应用影响了视觉特征的质量。

其次，ConvNeXt的预训练表示可能不如OpenAI的ViT[41]。

结果暗示，在不进行训练的情况下增加分辨率可能会影响表征的质量并阻碍LMMs的性能。然而，研究已经表明，在指令调整期间简单更新视觉编码器可能会阻碍性能[18]。为了缓解这个问题，ShareGPT4V[6]提供了一种有效的训练协议和高质量的数据集以更新视觉编码器。因此，作者采用这种方法来更新视觉编码器。

更新ConvNeXt的设置。为了更新视觉编码器，作者首先利用558k个标题数据集进行投影仪初始化[30]。然后，作者应用一个高质量标题数据集，ShareGPT4V-PT[6]，来训练整个视觉-语言模型，包括视觉编码器。最后，使用LLaVA 665k个指令调整数据集进行视觉指令调整。详细的训练过程如表13所示。ViT-L的最后12层是可训练的（根据ShareGPT4V[6]）。对于ConvNeXt，作者更新最后18个块（ConvNeXt-L总共有36个块）。

更新视觉编码器的结果。如表3所示，作者观察到以下结果：

(1) 在OCR基准测试中，ConvNeXt明显优于ViT。768分辨率ConvNeXt的改进大于336分辨率ViT（6.3/10.4 v.s. 4.6/5.2）。这些结果表明，将高分辨率视觉输入压缩到少数（例如，576）信息丰富的视觉 Token 是可行的。压缩不会导致大的信息损失。即使 Token 数量相同，ConvNeXt也保留了更多细粒度的视觉信息，并且显著优于ViT。

(2) 对于通用基准测试，ConvNeXt的表现与ViT相当。具体来说，ConvNeXt在SEEDBench上优于ViT，在MMBench上与ViT相当。值得注意的是，在MMBench上，768分辨率ConvNeXt与336分辨率ViT之间的性能差距，与冻结视觉编码器相比，从3.3缩小到0.3。这意味着更新视觉编码器至关重要。为了进一步支持这一点，作者在附录A中展示了使用更多数据更新视觉编码器的结果。

通常，更新后的ConvNeXt在这4个基准测试上的表现要优于ViT。这证明了更新ConvNeXt显著提高了性能，突显了它的重要性。以前的方法将ConvNeXt作为辅助视觉编码器，并直接将分辨率提高到1024[36]或1536[25]。它们未能发现一个问题，即在未更新ConvNeXt的情况下提升分辨率会损害性能。作者的方法深入问题的根源，为提升分辨率提供了一个简单而有效的解决方案。

Training with Stage 5 Scales up Resolution to 1536

正如作者在第3.1节中提到的，将分辨率扩展到768以上将产生过多的视觉标记。为了减少冗余并减轻大型语言模型（LLM）的过度计算需求，作者提出对ConvNeXt模型进行第5阶段的训练，以压缩视觉信息（训练协议如图1（c）所示）。

实现细节。作者采用三阶段训练协议。在投影器初始化阶段，作者用ShareGPT4V-PT数据[6]训练第五阶段层和投影器。

在第二阶段，作者用ShareGPT4V-PT数据训练整个模型。对于指令调整，作者使用665k LLaVA指令数据来训练LLM和投影器。训练协议与更新视觉编码器的协议类似。

唯一的不同在于，作者用ShareGPT4V-PT数据训练第五阶段和投影器，而第3.2节中的实验在第一阶段用558k标题数据训练投影器。

作者在第5阶段增加了6层，并在第二训练阶段调整了最后三个阶段。关于这些超参数的消融研究包含在附录B中。

ConvNeXt的结果。作者在表4中展示了向ConvNeXt添加第五阶段的结果。一致地提高分辨率在SEEDBench、TextVQA和DocVQA上的性能有所提高，这些任务需要细粒度的理解并从更高的分辨率中受益。这些结果突显了作者训练第五阶段方法的有效性。然而，在MMBench上，当分辨率从1024提高到1536时，ConvNeXt的性能略有下降。1536的分辨率大约是预训练分辨率（256）的六倍。将预训练的视觉编码器适配到如此大的分辨率提升中以有效提取全局信息需要大量的训练数据。在第4节中，作者通过在第二训练阶段向视觉编码器提供足够的数据来验证这一假设。

关于提高分辨率。当作者增加分辨率时，视觉标记的数量也随之增加。这两个因素是相互关联的，而且关于它们之间的关系尚未进行深入研究。以前的工作声称原始分辨率比视觉标记的数量更重要[28]。作者在通用基准SEEDBench和OCR基准DocVQA上进行实验，以调查这些假设。作者的方法提供了控制实验，以揭示分辨率与视觉标记数量之间的关系。作者比较了在相同视觉标记数量下，将ConvNeXt（在第3.2节中训练）和ConvNeXt（在第3.3节中训练）作为LLM的视觉编码器的结果。这两个系列的模型都使用ShareGPT4V-PT数据进行预训练，并用665k LLaVA指令数据进行指令调整。ConvNeXt有额外的阶段将视觉标记数量压缩到1/4。因此，这两系列模型之间的差异已大大减少。作者的控制实验揭示了新的发现：

(1) 当视觉标记数量相同时，更高分辨率的模型在SEEDBench和DocVQA上的性能更好。在图3中，绿色曲线一致地优于蓝色曲线。这是因为即使输出的视觉标记数量相同，高分辨率模型也能提供更细粒度、更高质量的视觉特征。以前的工作[31, 27, 11]通过将图像分割成块来提高分辨率，这将产生过多的视觉标记。这种裁剪方法极大地牺牲了效率，并挑战了LLM的检索能力。作者的核心发现提供了一种在不牺牲效率的情况下丰富视觉特征所包含信息的有前景的方法。将高分辨率图像压缩成信息丰富的视觉标记比裁剪方法更有效。训练一个阶段以进一步压缩视觉特征提供了一种增加分辨率并保持适中计算成本的方法。

(2) 在等效分辨率下，视觉标记数量在不同基准上的重要性不同。对于像SEEDBench这样的通用基准，对于768分辨率模型压缩视觉标记所带来的性能下降是微小的（在SEEDBench上为0.9）。然而，对于像DocVQA这样的OCR基准，具有较少视觉标记的模型的性能下降是实质性的（在DocVQA上为9.1）。总的来说，这些结果表明，虽然压缩视觉标记在通用基准上只造成轻微的信息丢失，但在细粒度的OCR基准上则导致显著的信息丢失。

4 Experiments

作者的结果显示，扩大ConvNeXt的分辨率和更新视觉编码器是训练高级高分辨率语言多模态模型的两种有效方法。然而，作者发现可用的训练数据不足以完全释放这些方法的潜力。因此，为了解决这一限制，作者扩大了高质量训练数据规模。

Training Setups

训练阶段。 作者采用三阶段训练协议来训练ConvLLaVA，如图1（c）所示。训练过程分为三个阶段：（1）_投影仪初始化_。作者训练ConvNeXt模型的第五阶段和视觉语言投影仪。作者使用了包括ShareGPT4V-PT [6]、ShareGPT4V [6]和ALLaVA字幕[4]在内的字幕数据，总计大约200万个示例。（2）_视觉语言预训练_。作者使用了包括ShareGPT4V-PT [6]、ShareGPT4V [6]、ALLaVA [4]以及VFLAN [52]的190k开源子集在内的字幕数据，总计290万个数据。（3）_视觉指令调整_。作者使用66.5万的LLaVA指令数据集[30]对模型进行微调。在每个阶段，作者使用AdamW优化器训练模型1个周期。同时应用余弦学习率计划。

图3：在SEEDBench和DocVQA上对比ConvNeXt和ConvNeXt。线上标记的数字表示模型的分辨率。

实现细节。 作者使用在LAION-2B上预训练的ConvNeXt-L模型作为作者的视觉编码器[17]。在三个训练阶段，分辨率被缩放到一个固定值。作者分别以768、1024和1536的分辨率训练ConvLLaVA。三个训练阶段的学习率分别是3e-4、2e-5和2e-5。同时，批处理大小分别是256、256和128。在2台A800机器上训练ConvLLaVA 768分辨率模型大约需要18小时。在A100机器上对LLaVA-NExT 7B进行指令调整需要20小时[31]，而作者的1536分辨率ConvLLaVA在单台机器上仅需9小时。

评估基准。 为了系统地研究作者模型的性能，作者包含了更多的基准来进行评估，包括MME [13]、MMBench [33]、SEEDBench [22]、MMMU [58]、MMVet [57]、RealWorldQA [50]、TextVQA [44]、DocVQA [38]和POPE [26]。作者的结果是使用VLMEVALKIT测量的。作者还评估了在定位基准上的性能，包括RefCOCO [19]、RefCOCO+和RefCOCOg [37]。

Quantitative Results

表6：在指代表达式理解任务上的结果。表中的模型使用相同的接地数据训练。作者将模型最佳性能标记为粗体。

表5：与不同分辨率多模态模型的比较。的结果是通过VLMEVALKIT使用官方预训练权重测量的。的结果是在原始图像宽高比下测量的，图像的短边被调整到1536。OtterHD在原始图像分辨率下测试， Token 数量有所变化。作者将7B模型的最佳性能标记为粗体，次佳性能则被下划线标出。

作者在7个不同的基准测试上与最先进的模型进行了全面比较（表5）。与LLaVA-1.5相比，作者的模型实现了持续的改进。作者7B模型的性能甚至与LLaVA-1.5 13B和LLaVA-NExT 7B [31]相当。在如TextVQA和DocVQA的OCR基准测试中，作者的模型超过了LLaVA-1.5 7B和13B模型。由于OCR基准测试对分辨率敏感，作者的ConvLLaVA系列模型在提高分辨率后，在TextVQA和DocVQA上显示出一致的改进，证明了提升分辨率的成效。值得注意的是，在只有有限文档数据的训练数据集的情况下，作者的模型在DocVQA上超过了Qwen-VL-Chat，后者拥有数百万文档的训练数据。这显示了作者的模型高分辨率设计的好处。ConvLLaVA在MMBench、TextVQA、POPE和MMVet上超过了LLaVA-NExT。

对于接地基准测试，作者的模型和LLaVA使用相同的接地数据集进行训练。它们之间的比较是公平的。在RefCOCO、RefCOCO+和RefCOCOg上，随着分辨率的增加，ConvLLaVA显示出一致的改进（表6）。在所有8个测试分割上，ConvLLaVA超过了LLaVA-7B和13B模型。这证明了高分辨率对于接地任务的好处。作者的7B模型还在所有8个基准测试上超过了13B LLaVA模型。

Understanding Any Aspect Ratio Images and Highre Resolutions

感谢卷积神经网络的翻译等价性，作者的模型可以在固定分辨率上进行训练，但在更高的分辨率和任意宽高比上进行推理。作者在1536分辨率模型ConvLLaVA上测试了这种能力。

原始图像预处理过程是将图像填充为正方形，将图像缩放到1536，并进行中心裁剪[30]。作者取消了填充和中心裁剪。因此，图像的短边只需调整到1536并保持原始宽高比。这就是作者测试任何宽高比图像的设置。结果展示在表7中。作者观察到，在通用基准测试SEEDBench上，性能略有下降。在OCR基准测试中，特别是在DocVQA上，性能有所提高。作者认为这样做的原因是DocVQA中的图像宽高比不是1:1，强制将图像转换为正方形会降低图像的分辨率。

作者还测试了当将图像的短边缩放到比预训练的1536分辨率更高的1664分辨率时，ConvLLaVA的表现。作者观察到在DocVQA上的性能可以进一步提高到65.7。

Discussions

架构与数据。尽管作者已经证明了作者方法的有效性，但仍有一些改进的空间。作者使用的ConvNeXt架构是为低分辨率图像理解（例如256）量身定做的，其核大小为7，针对这类分辨率进行了优化。然而，当分辨率增加到1536时，相对较小的核大小可能会在分辨率极高时限制模型的容量。此外，ConvNeXt四个阶段的层数（3、3、27、3）是针对4阶段模型设计的，对于作者的5阶段模型可能不是最优的。因此，未来一个潜在的研究方向可能是设计一个五阶段、线性空间复杂度、分层高分辨率视觉编码器。作者强调五阶段视觉编码器的重要性，因为它适合高分辨率LMM。它将视觉特征压缩了_64_，极大地减少了视觉标记中的冗余。相比之下，针对传统计算机视觉任务设计的四阶段视觉编码器在分辨率高时输出过多的标记。

线性空间复杂度与信息压缩。作者将_线性空间复杂度_和_信息压缩_过程确定为LMM未来视觉编码器的两个关键特性。这些特性分别确保了视觉编码器和LLM的效率。此外，它们对于多图像、图像与文本交错以及视频理解任务至关重要，因为这些任务通常会产生大量的视觉标记。作者预计未来的研究将更加关注这两个方向，以进一步推动LMM的研究。

高分辨率理解中压缩与检索的权衡。作者的方法，ConvLLaVA，将1536分辨率的图像压缩为576个视觉标记，压缩比为64。与此同时，当前的研究[11; 7]探讨了从长的视觉标记序列中检索细粒度的图像信息。在 high-resolution 图像理解的背景下，压缩视觉信息保持了计算效率，但过度的压缩可能导致信息丢失。相反，保留大量的视觉标记避免了信息丢失，但牺牲了效率，也挑战了LLM的检索能力。因此，在 high-resolution 理解中，视觉信息压缩与检索能力之间出现了权衡。未来的研究应该探索这两个因素之间的最佳平衡。

5 Conclusion

在本论文中，作者深入探讨了当前LMMs视觉编码器的局限性：平方空间复杂度和大量的视觉标记。过多的视觉标记是更根本的问题。这些缺陷阻碍了LMMs高效理解高分辨率图像的能力。因此，作者提出了ConvLLaVA，其视觉编码器是一个分层 Backbone 网络，ConvNeXt，以缓解这一问题。ConvLLaVA将高分辨率视觉信息压缩为富含信息量的视觉表示，而不是保留视觉表示中的所有冗余。广泛的实验结果已经证明了作者提出方法的有效性。作者7B参数模型的性能优于LLaVA-1.5 13B模型。此外，作者的方法在编码任意形状和分辨率图像方面具有灵活性。作者的工作突显了分层视觉 Backbone 网络对于LMMs的优势，解决了关键挑战，同时保持了简洁和高效。

训练阶段的数量。 作者进行了一项消融研究，以确定在768分辨率下进行视觉-语言预训练的最优阶段数。作者发现，从阶段3微调比从阶段4微调能获得更好的结果（表9）。尽管从阶段2和阶段3微调的性能相当，但由于阶段3的可训练参数较少，作者选择从阶段3进行微调。

第5阶段的层数。 作者在第5阶段的ConvNeXt层数上进行消融实验。鉴于在ConvNeXt-L中每个阶段的层数是3的倍数，作者在第5阶段尝试了3、6和9层。为了简单起见，作者在ConvNeXt 768上进行了实验。作者观察到在第5阶段增加9层时性能略有下降（表10）。然而，很难确定在这四个基准测试中增加3层还是6层更有利。因此，作者在1536分辨率下进行了实验，以进一步研究这个超参数（表11）。结果表明，增加6层可能更好。作者在实验中选择了6层。