自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

AI科技评论

发布于 2021-07-27 13:43:16

5870

发布于 2021-07-27 13:43:16

文章被收录于专栏：AI科技评论

AI 科技评论报道

7月9日，中国科学院自动化研究所所长徐波在2021世界人工智能大会（WAIC2021）上就人工智能的最新进展进行报告，发布了自动化所研发的三模态预训练模型—“紫东太初”。他表示，多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。

三模态预训练模型基本原理

自动化所首次提出了视觉-文本-语音三模态预训练模型，实现了三模态间相互转换和生成。其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间，然后通过多头自注意力机制（Multi-head Self-attention）学习模态之间的语义关联以及特征对齐，形成多模态统一知识表示，再利用编码后的多模态特征，然后通过多头自注意力机制进行通过解码器分别生成文本、图像和语音。

这里三模态互相转化和相互生成示意如图1所示：

图文音三模态相互转换与生成

自GPT/Bert模型提出后，预训练模型迎来了爆发式发展。多模态预训练模型具有在无监督情况下自动学习不同任务、并快速迁移到不同领域数据的强大能力。

近年来，互联网音视频数据呈高速增长，占比超过80% ，纯文本的预训练模型只涵盖了互联网数据中的较少部分，更丰富的语音、图像、视频等数据并未被充分利用与学习，且人类的信息获取、环境感知、知识学习与表达，都是通过多模态信息方式来执行的。OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表示，“人工智能的长期目标是构建多模态神经网络，即AI能够学习不同模态之间的概念，从而更好地理解世界”。为实现更加通用的人工智能模型，预训练模型必然由单模态往多模态方向发展，将文本、语音、图像、视频等多模态内容联合起来进行学习。

目前，已有的多模态预训练模型通常仅考虑两个模态（如图像和文本，或者视频和文本），忽视了周围环境中普遍存在的语音信息，并且模型极少兼具理解与生成能力，难以在生成任务与理解类任务中同时取得良好表现。

针对这些问题，自动化所此次提出的视觉-文本-语音三模态预训练模型采用分别基于词条级别(Token-level)、模态级别(Modality-level)以及样本级别(Sample-level)的多层次、多任务子监督学习框架，更关注图-文-音三模态数据之间的关联特性以及跨模态转换问题，对更广泛、更多样的下游任务提供模型基础支撑。

徐波表示，该模型不仅可实现跨模态理解（比如图像识别、语音识别等任务），也能完成跨模态生成（比如从文本生成图像、从图像生成文本、语音生成图像等任务）。灵活的自监督学习框架可同时支持三种或任两种模态弱关联数据进行预训练，有效降低了多模态数据收集与清洗成本。

多层次多任务自监督预训练学习

此次提出的三模态预训练模型由单模态编码器、跨模态编码器和跨模态解码器构成。针对图文音三模态数据，自动化所提出三级预训练自监督学习方式：词条级别 (Token-level,Modality-level)，模态级（Modality-level masking）以及样本级别（Sample-level masking) 。具体包括：

（1）词条级别(Token-level)学习

a. 文本掩码建模(Masked Language Modeling)：随机掩盖一些文本单词，需要模型根据上下文预测被掩盖的单词是什么；

b. 视觉掩码建模(Masked Vision Modeling)：随机掩盖一些图像区域，让模型预测被掩盖的区域；

c. 语音掩码建模(Masked Audio Modeling)：随机掩盖一些语音词条(token)，模型需要预测被掩盖的词条(token)是什么。

（2）模态级别(Modality-level)学习

包括文本重构和图像重构两个任务，分别学习重构输入文本和图像。自动化所引入模态级别掩码(Modality-Level Masking)机制随机地掩盖一个模态信息，使得模型需要根据其他模态信息对当前模态进行重构，从而能够进行下游的跨模态生成任务。这个机制也带来另一个好处—它使我们的模型不仅能够处理三模态输入，也能处理两模态输入，从而适应下游的两模态任务。

（3）样本级别(Sample-level)学习

该预训练任务是通过对每个样本随机地替换三种模态信息中的一种或两种，让模型来预测替换哪些模态。

“紫东太初”兼具跨模态理解和生成能力。与单模态和图文两模态相比，其采用一个大模型就可以灵活支撑图-文-音全场景 AI 应用，具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。引入语音模态后的多模态预训练模型，可实现共性图文音语义空间表征和利用，并突破性地直接实现三模态的统一表示。特别地首次使 “以图生音”和“以音生图”成为现实，对更广泛、更多样的下游任务提供模型基础支撑，达成AI在如视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。

此外，自动化所研发团队还提出了弱关联三模态数据的语义统一表达，可同时支持三种或任两种模态弱关联数据进行预训练，有效降低了多模态数据收集与清洗成本。

总结来说，此跨模态人工智能模型包括三大关键技术和六大核心能力。三大关键技术为多模态理解与生成多任务统一建模、面向国产化软硬件的高效训练与部署、多模态预训练模型架构设计与优化。六大核心能力则体现为多模态统一表示与语义关联、跨模态内容转化与生成、预训练模型网络架构合计、标注受限自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速。

会上，徐波展示了自动化所打造的虚拟人“小初”的人机对话，涉及了不同模态间的互相转换和生成实例，涵盖视频描述、智能问答、图像检索、吟诗作赋、中文续写、双语翻译、语音识别等多个功能。生动证明，通过图文音三模态的关联与协同可以有效的提升机器的理解和生成能力，让AI接近人类想象力！

以图生音示例

以音生图示例

视频注解：多模态大模型具备丰富图文音的理解能力，与单模态的GPT-3不同，交流更加生动自然流畅

实验结果

研究团队主要进行了以下两方面的实验验证：

（1）图文音三模态关联编码与相互生成性能

分别在多模态融合的图像分类、任意两模态的相互检索以及语音识别任务中，与常规全监督方法进行了性能比较，均取得了性能上的显著提升。其中在多模态融合的图像分类任务中，与常规全监督的Resnet101网络模型相比，性能提升5个百分点；加入语音模态信息能够明显提升以文搜图的性能，验证了联合建模视觉-文本-语音三模态信息的必要性。

（2）多模态下游任务性能

分别在跨模态检索、视觉问答与图像语义描述任务中，与当前最新的图文两模态预训练模型进行了性能比较，在补充了图文两模态数据参与预训练的模型上，取得了具有竞争力甚至更好的实验性能。

徐波表示，“大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式，多模态大模型将成为不同领域的共性平台技术，是迈向通用人工智能路径的探索，具有广阔的应用前景。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-07-09，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络