首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

高文院士团队 | 综述: 大规模多模态预训练模型

随着对通用深度模型的迫切需求,人们推出了许多预训练大模型,如双向编码器表示(BERT)、视觉变换器(ViT)、生成预训练转换器(GPT)等。这些模型在单一领域(如计算机视觉和自然语言处理)中取得了成功,受此启发,多模态预训练大模型近年来也受到了越来越多的关注。

北京大学高文院士团队对这些模型进行了全面综述,希望能提供新的见解,并帮助新研究人员跟进最前沿的工作。具体而言,团队首先通过回顾自然语言处理、计算机视觉和语音等领域的传统深度学习和预训练工作,介绍了多模态预训练的背景。然后介绍了多模态预训练模型(MM-PTMs)的任务定义、主要挑战和优势,并重点从数据、目标、网络架构和知识增强预训练等方面讨论了多模态预训练模型。随后介绍了用于验证大规模 MM-PTMs 的下游任务,包括生成、分类和回归任务。文章还对代表性下游任务的模型参数和结果进行了可视化分析。最后指出了可能有益于未来工作的研究方向。此外还将在此列表中持续更新有关大规模预训练多元模型的论文:

https://github.com/wangxiao5791509/MultiModal_BigModels_Survey。

图片来自Springer

全文下载:

Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey

Xiao Wang, Guangyao Chen, Guangwu Qian, Pengcheng Gao, Xiao-Yong Wei, Yaowei Wang, Yonghong Tian, Wen Gao

https://link.springer.com/article/10.1007/s11633-022-1410-8

https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1410-8

全文导读

AlexNet在ImageNet竞赛中实现了识别性能的突破,人工智能因此快速发展。人们开发出了VGG、ResNet、Inception、长短期记忆网络(LSTM)等许多有代表性的深度神经网络。研究人员通常会针对自己的任务收集并注释一些样本,然后在大规模数据集(如计算机视觉领域的ImageNet、自然语言处理领域的Glove和skip-thought vectors)上基于预先训练好的骨干对模型进行训练。与传统的手工特征相比,这种端到端的方式可以很好地解决物体检测、分割和识别等许多任务。然而,深度模型的泛化能力仍然有限。收集和注释更大的数据集可以在一定程度上解决这些问题,但这一过程成本高且繁琐。

为解决这一问题,Vaswani等人开发了transformer网络,该网络在机器翻译任务中实现了新的先进性能(SOTA)。此后,在大规模语料库上进行自监督预训练,然后在下游任务上进行微调的方法吸引了越来越多研究人员的关注。许多预训练大模型都是按照这种范式开发的,如双向编码器表征(BERT)、生成式预训练变换器(GPT)、T5、XLNet 等,这也带来了计算机视觉(CV)界预训练研究的新亮点。越来越多的大规模自然语言处理(NLP)和计算机视觉模型证明了预训练-调整范式的出色效果,其中包括视觉变换器(ViT)和Swin-transformer。

虽然这些进展为人工智能的发展带来了新的动力,但单一模态的缺陷所带来的问题仍然难以解决。研究人员试图结合更多模态来弥补深度模型的数据缺口。许多基于多模态融合的任务也以传统的深度学习方式进行了探索,如 RGB、深度、自然语言、点云、音频、事件流等。人们相继推出了许多大规模预训练的多模态模型,并在下游任务上设定了新的 SOTA。本文将对这些研究进行全面概述,旨在帮助对该领域感兴趣的新研究人员快速了解其发展历史和最新进展。

图1:2019年至今多模态预训练大模型的发展里程碑

本综述结构。本文的第2节首先回顾了多模态预训练技术的背景,从传统的深度学习范式到单模态任务的预训练,包括自然语言处理、计算机视觉和语音处理。然后在第3.1-3.2节中重点介绍了MM-PTMs,并描述了其任务定义、面临的主要挑战和具有何种优势。第3.3-3.6节还回顾了重要组成部分,包括大规模数据、网络架构、优化目标和知识增强型预训练。为了验证预训练模型的有效性,本文使用了许多下游任务进行定量评估。在第4节中对这些任务的任务定义和评估指标进行了详细介绍。第5节回顾了用于训练的模型参数和硬件,并汇报了几个有代表性的下游任务实验结果。最后,在第6节中,对本次综述进行了总结,并提出了需要研究的多个研究方向。本综述的架构如图2所示。

图2:本综述框架

与现有综述的区别。虽然目前已有两篇关于MM-PTMs的综述,但本综述与现有综述的不同之处可归纳如下:

范围。现有的多模态综述只关注视觉-语言,但多模态信息问题是一个更广泛的研究课题。本文介绍了更多的模式,如音频、视频、表格等,比上述综述更加全面。

时效性。本文介绍了针对多模态预训练提出的最新数据集和算法(从2019年到2022年6月),属于长篇综述,而以往综述属于短篇论文。

对MM-PTMs的新认识。本文从不同角度对现有的MM-PTMs进行了分类和分析,有助于读者从细节和高层次两个角度掌握前沿的方法和技术。此外,本文提出的MM-PTMs研究方向也是经过深思熟虑的,将为后续研究提供新的线索。

全文下载:

Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey

Xiao Wang, Guangyao Chen, Guangwu Qian, Pengcheng Gao, Xiao-Yong Wei, Yaowei Wang, Yonghong Tian, Wen Gao

https://link.springer.com/article/10.1007/s11633-022-1410-8

https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1410-8

BibTex:

@Article,

journal=,

title=,

year=,

volume=,

number=,

pages=,

doi=

}

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OVKv0IZZMp68ETysIw3HTxMw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券