深度学习自然语言处理 原创 作者:wkk
今天为大家介绍香港中文大学联合上海人工智能实验室的最新研究论文,关于在LLM时代将各种模态的信息对齐的框架。
论文:OneLLM: One Framework to Align All Modalities with Language 地址:https://arxiv.org/abs/2312.03700 git: https://github.com/csuhan/OneLLM
随着LLM的兴起,由于其强大的语言理解和推理能力,在学术和工业界中越来越受欢迎。LLM的进展也启发了研究人员将LLM作为多模态任务的接口,如视觉语言学习、音频和语音识别、视频理解等,因此多模态大语言模型(Multimodal Large Language Model, MLLM)也引起了研究人员的关注。然而,目前的研究依赖特定于单模态的编码器,通常在架构上有所不同,并且仅限于常见的模态。本文提出了OneLLM,这是一种MLLM,它使用一个统一的框架将八种模式与语言对齐。通过统一的多模态编码器和渐进式多模态对齐pipelines来实现这一点。不同多模态LLM的比较如下图所示,可以明显的看出OneLLM框架的工作方式与之前研究的区别。
OneLLM由轻量级模态标记器、通用编码器、通用投影模块(UPM)和LLM组成。与之前的工作相比,OneLLM 中的编码器和投影模块在所有模态之间共享。特定于模态的标记器,每个标记器仅由一个卷积层组成,将输入信号转换为一系列标记。此外,本文添加了可学习的模态标记,以实现模态切换并将不同长度的输入标记转换为固定长度的标记。
众多特定于模态的编码器通常在架构上有所不同,需要付出相当大的努力将它们统一到一个框架中。此外,提供可靠性能的预训练编码器通常仅限于广泛使用的模式,例如图像、音频和视频。这种限制对 MLLM 扩展到更多模式的能力施加了限制。因此,MLLM 的一个关键挑战是如何构建一个统一且可扩展的编码器,能够处理广泛的模态。
LLM的迅猛发展引起了研究人员的重视,因此有研究人员提出了视觉领域的大型视觉语言模型,并取得了较好的性能。除了视觉领域大语言模型之外,研究人员将其拓展到了多模态领域,如音频、视频和点云数据中,这些工作使得将多种模式统一为一个LLM成为可能即多模态大语言模型。X-LLM,ChatBridge,Anymal,PandaGPT,ImageBind-LLM等MLLM不断涌现。然而,当前的 MLLM 仅限于支持常见的模式,例如图像、音频和视频。目前尚不清楚如何使用统一的框架将 MLLM 扩展到更多模式。在这项工作中,提出了一个统一的多模态编码器来对齐所有模态和语言。将多种模式对齐到一个联合嵌入空间中对于跨模态任务很重要,这可以分为:判别对齐和生成对齐。判别对齐最具代表性的工作是CLIP,它利用对比学习来对齐图像和文本。后续工作将 CLIP 扩展到音频文本、视频文本等。本文的工作属于生成对齐。与之前的工作相比,直接将多模态输入与LLM对齐,从而摆脱训练模态编码器的阶段。
上图展示了 OneLLM 的四个主要组件:特定于模态的标记器、通用编码器、通用投影模块和 LLM。
多模态对齐的简单方法是在多模态文本数据上联合训练模型。然而,由于数据规模的不平衡,直接在多模态数据上训练模型会导致模态之间的偏差表示。本文训练了一个图像到文本模型作为初始化,并将其他模式逐步接地到LLM中。包括图文对齐、多模态-文本对齐。同时为每个模态收集 X 文本对。图像-文本对包括LAION-400M和LAION-COCO。视频、音频和视频的训练数据分别为WebVid-2.5M、WavCaps和Cap3D。由于没有大规模的deep/normal map数据,使用预训练的 DPT 模型来生成deep/normal map。源图像和文本以及 CC3M。对于IMU-text对,使用Ego4D的IMU传感器数据。对于fMRI-text对,使用来自NSD数据集的 fMRI 信号,并将与视觉刺激相关的字幕作为文本注释。
在多模态文本对齐之后,OneLLM 成为一个多模态字幕模型,可以为任何输入生成简短的描述。为了充分释放OneLLM的多模态理解和推理能力,本文策划了一个大规模的多模态指令调优数据集来进一步微调OneLLM。在指令调优阶段,完全微调LLM并保持其余参数冻结。尽管最近的工作通常采用参数高效的方法,但凭经验表明,完整的微调方法更有效地利用 OneLLM 的多模态能力,特别是利用较小的 LLM(e.g.,LLaMA2-7B)。
为了探索 OneLLM 的一些关键设计。消融实验是在训练数据的一个子集上进行的,除了对专家数量的研究外,它只包含图像、音频和视频的多模态对齐和指令调整数据集。如果没有指定,其他设置保持不变。消融实验的结果如下表所示,
下图中给出了 OneLLM 在八种模态上的一些定性结果。展示了 OneLLM 可以(a)理解图像中的视觉和文本内容,(b)利用视频中的时间信息,(c)基于音频内容进行创造性写作,(d)理解3D形状的细节,(e)分析fMRI数据中记录的视觉场景,(f)基于运动数据猜测人的动作,以及(g)-(h)使用deep/normal map进行场景理解。
以下是OneLLM框架更多的定性分析结果。
在这项工作中,本文介绍了 OneLLM,这是一种 MLLM,它使用一个统一的框架将八种模式与语言对齐。最初,训练一个基本的视觉LLM。在此基础上,设计了一个具有通用编码器、UPM 和 LLM 的多模态框架。通过渐进式对齐pipelines,OneLLM 可以使用单个模型处理多模态输入。此外,本文工作策划了一个大规模的多模态指令数据集,以充分释放OneLLM的指令跟踪能力。最后,在 25 个不同的基准上评估 OneLLM,显示出其出色的性能。
限制与未来工作:本文的工作面临两个主要挑战: