前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !

字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !

作者头像
AIGC 先锋科技
发布2024-07-11 10:11:05
1110
发布2024-07-11 10:11:05
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

在本报告中,作者介绍了MammothModa,这是又一款旨在从基础水平线开始实现最先进性能的多模态大型语言模型(MLLM)。 作者关注三个关键设计洞察: (i) 在保持复杂语言理解的同时集成视觉能力:除了视觉编码器,作者还将在LLM中融入视觉注意力专家以增强其视觉能力。 (ii) 为高分辨率和长时程视觉特征扩展上下文窗口:作者探索了视觉合并模块,以有效减少高分辨率图像的标记数量,并融入帧位置id以避免位置插值。 (iii) 高质量的双语数据集:作者精心挑选和筛选了一个高质量的双语多模态数据集,以减少视觉幻觉。 以上述方法,作者构建了MammothModa模型,在没有额外修饰的情况下,它在主要现实世界视觉语言基准测试中一致地超越了最先进的模型,例如LLaVA系列。

1 Introduction

近期,多模态大型语言模型(MLLMs)因其能够理解和生成受视觉输入影响的语言而受到了广泛关注。这些模型融合了视觉和文本数据,使得应用范围涵盖了图像字幕生成、视觉问答和视频分析等众多领域。尽管取得了进展,但许多MLLM在有效结合高分辨率和长时程视觉输入与复杂的语言理解方面,同时保持简洁和高效性方面仍面临挑战。

在本文报告中,作者介绍了 MammothModa,这是一种新型的 MLLM,旨在从基础基准出发,并融入三个关键设计洞察,以推动当前模型的边界。在保持复杂语言理解的同时整合视觉能力:通过将视觉注意力专家整合到语言模型中,MammothModa增强了处理视觉信息的能力,同时不损害其语言处理能力。扩展上下文窗口以处理高分辨率和长时程视觉特征:视觉合并模块有效减少了高分辨率图像的标记数量,而帧位置ID管理长时程视觉数据,无需借助位置插值。高质量的双语数据集:为了最小化视觉幻觉并提高模型鲁棒性,作者精心策划并筛选了一个高质量的双语多模态数据集。

这些创新共同使得MammothModa在主要的现实世界视觉语言基准测试中超越了现有的最先进模型。本报告展示了MammothModa的架构和设计选择,详尽的实验评估,以及与领先的MLLMs的对比分析,证明了其卓越的性能和效率。

2 MammothModa

Overview

MammothModa的架构主要由3个主要组成部分构成:一个具有高分辨率输入和视觉融合模块的视觉编码器,一个投影层,以及一个大型语言模型(LLM),带有视觉注意力专家(VE)和共享的帧位置ID。视觉编码器使用对比预训练的视觉 Transformer (ViT)[13]处理高分辨率图像。投影层将视觉特征映射到语言空间,使得与语言模型的无缝集成。VE模块被集成到语言模型中,以处理视觉标记,同时保留模型的语言能力。

Global-Local High-Resolution Visual Inputs

受到最近的MLLMs 的启发,为了高效灵活地进行细粒度的视觉理解,采用了全局-局部高分辨率分割(GLHR)方法,通过动态地将输入图像划分为可管理的块。GLHR包括以下两个步骤。

动态分割。首先,将原始图像调整大小以确保尺寸是336的倍数。然后,将图像划分为像素的块,最多允许12个块。正式地说,对于尺寸为的图像,作者将图像调整大小并填充到新的尺寸,其中和。

全局-局部融合。对于每个图像,作者通过直接将其调整大小为来获得全局视图。然后,通过执行像素块的动态分割来创建多个局部视图。这种方法确保了全局和详细的局部信息都被保留并用于进一步处理。

Bridge Visual Embeddings and LLM

在将MLLM应用于视频的背景下,管理与视觉标记相关的计算开销至关重要。遵循LLaVA的投影理念,使用一个线性层将视觉和语言特征桥接到共同的嵌入空间,而不过度进行特征变换,为更大的模型保留足够的容量。尽管其简单,但随着分辨率的提高和视频帧数的增加,ViT生成了大量的标记,这对后续的LLM处理提出了巨大的挑战。例如,LLaVA-v1.5通过ViT-L从图像中提取视觉标记,结果标记长度为576。当应用于长视频时,即使是每视频仅采样10帧,也会产生5760个标记,导致计算成本巨大。因此,有效地压缩这些视觉特征是势在必行的。

先前的工作通过设计复杂的网络结构将大的视觉特征图压缩成少量的标记,如Q-Former [9],Cross Attention [3],Perceiver Resampler [1],以解决此问题。为了简化问题,作者应用了一个简约的视觉合并模块(Visual Merger)来应对高分辨率和长视频,并设计帧位置ID 以避免长视频中位置扩展的挑战。

视觉合并模块在投影层之前,应用一个空间窗口内的均值池化来聚合特征,从而得到一个减少的特征图。尽管这个方法简单,但它取得了很有希望的结果。此外,作者的实验表明,这种策略支持在推理过程中动态池化,例如在训练时使用池化,在测试时使用池化,这在不牺牲性能的情况下提高了推理速度。VM策略在显著减少计算负载的同时,保留了视觉空间信息的完整性。这种平衡确保了多模态大型语言模型在处理高分辨率视觉特征时的高效处理和鲁棒性能。

尽管视觉合并模块从空间角度解决了高分辨率视觉标记的挑战,但是当时间维度变得更长,即理解视频时,视觉标记也会急剧增加。为了保持简约的设计,作者直接将这些来自视频帧的特征拼接起来,并引入帧位置ID来解决挑战。

共享帧位置ID在处理长时视频时,大量的视觉标记可能会轻易耗尽典型LLM的预训练位置嵌入,这些位置嵌入通常是针对有限的输入长度设计的。一个潜在的解决方案是在位置嵌入上执行插值操作。然而,插值可能会引入不希望有的副作用。例如,线性插值可能无法有效地保持模型的性能,因为它没有很好地处理位置嵌入维度的非均匀性。基于动态神经切线核的非均匀插值方法虽然性能更好,但仍受某些外推限制的影响[2, 4, 7]。

直观地说,MLLM中视觉标记的空间位置信息已经被视觉 Transformer 通过视觉特征封装。因此,对于大量的高分辨率长时视觉特征,LLM的有限位置嵌入是不必要的浪费。为此,作者提出了帧位置ID ,为每个视频帧分配一个用于LLM输入的共享位置编码。正式来说,对于包含每帧个标记的帧视频输入,FPID只为这个视频保持个位置嵌入,而不是原来的个。

Prevent LLM Degradation with Visual Experts

如图表2所示,随着视觉-语言训练的进行,LLM的语言技能有所牺牲,这一点在最近的工作[10, 16]中也已观察到。早期的MLLM通常固定LLM以保持语言能力不变,因此在视觉-语言适配方面付出了很大的努力,例如提示调优[1, 6, 9]。然而,最先进的方法发现,在多模态基准测试上,完全微调优于提示调优[10, 12]。

为了避免语言能力退化并实现最先进的视觉语言能力,受到专家混合(MoE)[15, 16]思想的启发,作者在预训练的纯文本LLM中插入了视觉专家(VE)模块。VE对视觉标记进行特征转换,而文本标记则由原始LLM层转换。具体来说,VE模块由一系列 Query -键-值(QKV)[14]矩阵组成,旨在高效处理视觉输入,同时不干扰原始模型的语言能力。从效率的角度来看,作者没有在前馈网络(FFN)[14]层中添加视觉专家。

Multi-Phase Training

MammothModa的训练分为三个阶段:

视觉-语言对齐:在这个初始阶段,作者使用简单的MLP投影器将视觉 Transformer (ViT)提取的视觉特征与语言模型进行对齐。这使得语言模型能够解释和表达图像信息。这一阶段的主要训练数据包括标题数据集。

多任务预训练:这个阶段利用了多种数据类型,包括双语标题、交错文本-图像对、目标定位、OCR定位和视频标题。在训练期间,激活MLP投影器和LLM视觉专家。这里的目的是在减少幻觉的同时,提高模型的细粒度识别、OCR能力和视频理解。

监督微调:这是最为关键的阶段,专注于训练模型理解用户意图,从图像中提取相关信息以提供准确的回应。训练数据在内容和格式上多样化,包括细粒度标题、多轮视觉对话、通用VQA、带图表的数学问题、文档理解、外部知识(例如,维基百科)、双语OCR定位和识别以及定位。此外,纯文本数据集包括双语对话、数学问题解决、逻辑推理和代码。作者采用图像裁剪策略来提高有效的分辨率并确保详细捕捉。所有模型参数都可用于训练,对ViT应用层状学习率衰减以最小化对预训练参数的修改。

3 Experiments

Ablation Study

动态分割提供细粒度细节。表3展示了动态分割方法与仅对图像进行缩放的方法相比,在各个基准测试中显著提高了性能。特别是DS-12-split方法显示出最高提升,平均分为431.76,比缩放方法高出45.93分。将最大等效分辨率从336x336(缩放)提高到1008x1344 使模型能够实现更好的细粒度视觉理解。这种分辨率提升在特定基准测试中带来了显著的改进,如MME分数提高了13.54分。OCRBench和DocVQA基准测试特别受益于动态分割,使用DS-12-split方法与缩放方法相比,OCRBench分数提高了105分,DocVQA分数提高了28.83分。这些改进表明,动态分割对于需要详细文本和文档理解的任务特别有效。

视觉合并加速了推理。表3的结果表明,视觉合并模块显著减轻了计算负担。例如,使用窗口大小为3和均值池化,测试时间成本从398秒(不合并)降低到298秒,速度提高了1.34倍。尽管计算成本有所降低,但性能保持一致。例如,在窗口大小为3和均值池化的情况下,平均分数(AVG)为56.78,与使用更小窗口大小获得的分数相当。结果表明,均值池化策略有效地平衡了效率和性能,确保模型在处理高分辨率视觉特征时的鲁棒性。

共享帧位置ID有助于支持长时长视频。表5说明了使用共享帧位置ID(FPID)与简单位置ID处理长时长视频的影响。使用共享FPID显著减少了所需的位置ID数量,避免了位置嵌入的插值。例如,对于30帧,位置ID的数量从4320减少到30。虽然共享FPID方法引入了一些权衡,但对性能的整体影响很小。性能的轻微变化被在简洁性和处理更长视频序列而不插值位置嵌入的能力上的大幅增益所抵消。

视觉专家减轻了语言退化并提高了视觉性能。如表2所示,直接使用视觉-语言数据进行微调(FT)导致LLM在多个基准测试中的语言能力下降。例如,与仅文本设置相比,MMLU分数下降了2.8分,CMMLU下降了7.6分,CEVAL下降了6.0分,GSM8K下降了12.0分。这种退化与最近的工作中的观察一致,这些工作也强调了视觉-语言适应与语言熟练度之间的权衡[10]。在微调过程中引入VE模块有助于减轻语言能力的退化。更重要的是,如表3所示,添加VE模块导致视觉任务性能显著提升。配备VE模块后,MME分数提高了131.9分,MMVet分数提高了6.2分。这表明VE模块有效地增强了模型处理视觉信息的能力,同时不损害其语言能力。

Quantitative Evaluation

MammothMod模型在各种视觉语言多模态基准测试中表现出强大的性能,如表1所示。它取得了具有竞争力的平均分数61.2,使其成为表现最佳的模型之一。MammothModa在几个特定的基准测试中表现出色,在MMStar(56.27)和Hall.Bench(44.57)中排名第二,在AI2D(81)排行榜中排名第三,凸显了其在理解和解释视觉和文本数据方面的强大能力。这一令人印象深刻的排名得到了作者的消融研究结果的证实,其中动态分割方法和视觉专家(VE)模块的融合显著提高了模型在视觉任务上的性能,同时保持了强大的语言能力。在诸如MMBench(81.04)和MMVet(56.06)等不同基准测试中的一致高分进一步验证了MammothModa在处理复杂多模态输入方面的有效性和多样性。这些发现强调了该模型在需要高级视觉和语言理解的多种现实世界场景中具有广泛应用的潜力。

4 Conclusion

在本次报告中,作者介绍了MammothModa,这是一个先进的多模态大型语言模型(MLLM),旨在在视觉语言任务上表现出色。

通过将视觉能力集成到语言模型中,扩展对高分辨率和长时程视觉特征的上下文窗口,并利用高质量的双语数据集,MammothModa在现有模型上取得了显著的改进。

作者的实验结果表明,MammothModa在各种各样的视觉语言基准测试中一致地超越了其他模型。

此外,精心策划的双语数据集的使用减少了视觉幻觉,提高了模型的准确性和可靠性。

定性评估展示了MammothModa处理多样化任务的能力。

参考

[1].MammothModa: Multi-Modal Large Language Model.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 MammothModa
  • Overview
  • Global-Local High-Resolution Visual Inputs
  • Bridge Visual Embeddings and LLM
  • Prevent LLM Degradation with Visual Experts
  • Multi-Phase Training
  • 3 Experiments
  • Ablation Study
  • Quantitative Evaluation
  • 4 Conclusion
  • 参考
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档