前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多模态应用之自然语言处理

多模态应用之自然语言处理

作者头像
一点人工一点智能
修改2022-12-30 11:11:25
1.3K0
修改2022-12-30 11:11:25
举报

吴友政,李浩然,姚霆,何晓冬. 多模态信息处理前沿综述:应用、融合和预训练[J]. 中文信息学报, 2022, 36(5): 1-20;

多模态融合是多模态信息处理的核心问题。本文介绍 NLP 领域关注度较高的多模态应用和相关的数据集。

我们分析了最近两年在自然语言处理领域国际学术会议上(ACL、EMNLP、NAACL)发表的多模态信息处理的论文,并从应用的角度对论文进行了分类。关注度较高的多模态应用如图1所示。本节将对这些应用展开介绍。除此之外,多模态应用还包括视听语音识别、多模态语言分析和视觉辅助的句法分析等。

图1 多模态信息处理论文的分类统计
图1 多模态信息处理论文的分类统计

01 多模态情感识别

情感是人类区别于机器的一个重要维度,而人的情感往往又是通过语音、语言、手势、动作表情等多个模态表达的。在交互场景下,多模态情感识别研究如何从人的表情和动作手势、语音音调、语言等多模态信息中理解用户细颗粒度的情感表达,进而指导人机交互策略。其主要研究内容有:

①基于多模态信息互补性和异步性的动态融合;

②高噪声环境下对于模态模糊或模态缺失问题的鲁棒性融合;

③客服和营销等自然交互情境下的情感识别等。

多模态情感识别的常用数据集有IEMOCAP、CMU-MOSI、CMU-MOSEI、CH-SIMS和IVD等。数据集的多维度比较如表1所示。

IEMOCAP数据集收录了10位演员的表演数据,包含视频、语音、面部运动捕捉和文本模态,并标注了高兴、悲伤、恐惧和惊讶等共9类情感。CMU-MOSI数据集收录了89位讲述者的2199条视频片段,每段视频标注了7类情感。

CMU-MOSEI数据集是CMU-MOSI的扩展版,收录了1000多名YouTube主播的3228条视频,包括23453个句子,每个句子标注了7分类的情感浓度(高度负面、负面、弱负面、中性、弱正面、正面、高度正面)和6分类的情绪(高兴、悲伤、生气、恐惧、厌恶、惊讶)。

CH-SIMS数据集是一个中文多模态情感分析数据集,该数据集为2281个视频片段标注了细颗粒度的情感标签。

IVD是从中文语音助手的真实用户对话日志中抽取的语音情感数据集,包括500000条无标注的语音数据和2946条带6分类情感标注的语音数据。

随着图文和短视频等新兴社交媒体的迅速发展,人们在社交平台上的表达方式也变得更加丰富。社交场景下的多模态情感识别主要研究基于图文表达的情感倾向和方面级的细颗粒度情感等。

表1 常用多模态情感识别数据集对比
表1 常用多模态情感识别数据集对比

02 视觉-语言生成

视觉(图像或视频)到语言的生成和语言到视觉(图像或视频)的生成打破了计算机视觉和自然语言处理两个领域的边界,成为多模态交叉学科中最热门的研究课题。2021年初,OpenAI推出的基于GPT-3的语言到视觉的生成模型DALL-E①可以根据自然语言的描述生成逼真的图像,产生了较大的反响。本节主要介绍视觉到语言生成的相关应用。

2.1 图像描述

图像描述(Image Captioning)是对给定的一幅自然图像生成一句自然语言描述的任务。2015年以前,图像描述的主流方法是基于模板的方法。其基本思想是检测图像中的物体、动作,并将这些词作为主语、动词和宾语等填写到预定义的模板中。从2015年开始,基于视觉编码器(CNN等)和语言解码器(RNN/LSTM等)的序列到序列(Sequence-to-Sequence,Seq2Seq)框架广泛应用于这一任务。通过从视觉图像中解析出属性(Attribute)、关系(Relation)和结构(Hierarchy)等高层语义信息,并将这些语义信息融入视觉编码和语言解码中,提高了图像描述的生成效果。

图像描述任务的常用数据集有MSCOCO、Conceptual Captions、Flickr30K、Visual Genome和SBU Captions。

MSCOCO数据集是微软发布的可用于目标检测(Object Detection)、人体姿势识别(DensePose)、关键点检测(Keypoint Detection)、实例分割(Stuff Segmentation)、全景分割(Panoptic Segmentation)、图片标注(Category Labelling)和图像描述(Image Captioning)的数据集。该数据集有91类物体(人、猫和卡车等),共计32.8万幅图像,每幅图像包含5个英文描述。

Conceptual Captions数据集收录了330万幅“图像,描述”对,是目前最大的多模态数据集,其中的图像有自然图像、产品图像、专业照片、卡通和绘图等类型,描述取自HTML中的Alt-text属性字段值。

Flickr30K收录了来自Flickr的共计31783幅日常活动、事件和场景的图像,每幅图像通过众包方式标注了5个图像描述。

VisualGenome是基于10.8万幅图像的大规模多模态数据集,该数据集标注了380万个对象、280万个属性、230万个关系、170万个“图像、问题、答案”三元组和540万个区域描述。图像中的对象、属性、关系、区域描述和视觉问答中的名词与短语还被归一化到相应的WordNet同义词集。

2.2 视频描述

视频描述(Video Captioning)是对给定的一段视频(通常是几十秒的短视频)生成一句准确、细致描述的任务。视频除了图像信息外,还包括时序和声音等信息。视频描述可提取的特征更多,技术挑战也更大。

视频描述任务的常用数据集有MSR-VTT、Activity Net-Captions、YouCook2和ACTIONS等。

MSR-VTT数据集由1万个网络视频剪辑、20万“视频,描述”对组成。MSR-VTT数据集涵盖了音乐、游戏、体育、教育等20多个类别的视觉内容,每个视频剪辑时长10~20秒,人工为每个视频剪辑标注了20个描述句子。YouCook2数据集是一个烹饪教学视频数据集,包括89个食谱的2000个未经剪辑的教学视频(最长10分钟,平均5分钟)。ACTIONS是首个无需人工标注、从数以亿计的网页内容中自动提炼“视频,描述”对的视频描述数据集,总共包含了163183个GIF视频。

2.3 视觉叙事

视觉叙事(Visual Storytelling)要求模型对于给定的图像序列,在深度理解图像序列的基础上生成连贯的叙事故事。相比于图像描述和视频描述,视觉叙事更具挑战性。在视觉理解上,视觉叙事的输入是有时序关联的图像序列,需要模型具备根据历史视觉事件推测当前的视觉事件的能力。在语言生成上,对比图像描述和视频描述中的客观文字描述,视觉叙事的输出由更多评价性、会话性和抽象性语言组成。SIND是一个视觉叙事数据集,该数据集收集了81743幅图片,以及排列成符合文字描述和故事情节的20211个序列。

03 视觉问答和多模态对话

3.1 视觉问答

视觉问答(Visual Question Answering,VQA)是2015年新提出的任务,简单来说就是图像问答。给定一幅图像和一个关于该图像的开放式自然语言问题,要求模型准确回答该问题。视觉问答是一个典型的多模态问题,需要模型具备物体定位、属性检测、事件分类、场景理解和推理及数学计算等能力。根据图片类型的不同,VQA又分为自然图像理解VQA、合成图像推理VQA和自然图像推理VQA。表2列举了这3种VQA的示例。

VQA常用数据集有VQAv1/v2、CLEVR和GQA。VQAv1/v2是自然图像理解VQA数据集,VQAv2解决了VQAv1中明显的语言先验(Language Priors)问题。CLEVR是合成图像推理问答数据集。CLEVER中的图像由简单的几何形状的物体组成,旨在测试模型对组合式语言的理解能力和对视觉场景的推理能力。CLEVR数据集中的图像是程序合成的,其场景的复杂度与自然场景相去甚远。对此,Hudson等人发布了基于自然图像的组合式问题视觉问答数据集GQA,该数据集包括关于11.3万幅图像的超过2000万的问题。每幅图像都标注了一个场景图(Scene Graph),表示图像中的对象、属性和关系。每个问题都对应一个功能性程序(Functional Program),列出了获得答案所需执行的一系列推理步骤。每个答案都有与之对应的验证信息,指向图片中的相关区域。

表2 三类视觉问答的示例
表2 三类视觉问答的示例

3.2 视觉对话

视觉对话(Visual Dialog)是给定一幅图像(或视频等视觉内容)和一个上下文相关的问题,要求模型根据图片(或视频)内容回答该问题。与视觉问答相比,视觉对话还要解决对话中特有的挑战,如共指(Co-references)和省略(Ellipsis)等。视觉对话也被认为是视觉图灵测试。

视觉对话常用数据集有VisDial、IGC、GuessWhat、Image-Chat和AVSD。VisDial中的问题和答案都是形式自由的。GuessWhat是通过一系列“是/否”问题发现图像中的物体。IGC是一个闲聊型的视觉对话数据集,但闲聊的话题受限于给定的图像。Image-Chat也是一个闲聊型视觉对话数据集。与IGC不同的是,Image-Chat数据集还限定了对话参与者A和B的风格特征。AVSD定义了一个视听场景的多轮对话任务,要求机器在理解问题、对话历史和视频中的场景等语义信息的基础上回答用户问题。

视觉对话中的用户问题只与单个图像(视频)相关,且用户问题和模型回答都是文字的。

3.3 多模态对话

多模态对话(Multimodal Dialog)关注更接近人类自然对话的多模态人机对话技术的研究。它与上一节介绍的视觉对话的主要差异有:

①多模态对话给定的输入图像可能是多幅的;

②随着对话的推进,图像是不断更新的;

③用户问题和模型的回答可以是文本的、图像的或者图文结合的;

④模型可能需要查询外部领域知识库才能回答用户的问题(如购物者希望看到更多与特定商品相似的商品,或者要求提供满足某些特征的商品,或者查询特定商品的属性等);

⑤模型可能需要通过反问等对话策略澄清用户需求。

零售和旅游等限定领域的多模态对话最近受到了越来越多的关注。

常用的面向购物场景的多模态对话数据集有MMD、SIMMC和JDDC。MMD是在服饰专家的指导下通过模拟扮演(Wizard-of-Oz,WoZ)的方式收集的时尚购物场景的数据集。SIMMC2.0是时尚和家具购物场景的数据集。其中,时尚和家具杂乱的购物场景是通过逼真的VR场景生成器(VR Scene Generator)生成的。与MMD和SIMMC不同,JDDC2.0是从电商平台客服和消费者之间的真实对话数据中采样的(图2)。JDDC2.0包括多模态对话24.6万,其中,图片50.7万张,平均对话轮数14轮。此外,JDDC2.0还提供了30205个商品的759种商品属性关系,共计21.9万的<商品ID、属性、属性值>三元组。

视觉对话和多模态对话常用数据集的详细对比如表3所示。

图2 JDDC2.0中的多模态对话示例
图2 JDDC2.0中的多模态对话示例
表3 视觉对话和多模态对话常用数据集的对比表
表3 视觉对话和多模态对话常用数据集的对比表

04 多模态摘要

多模态摘要是基于对多模态输入(文本、语音、图像和视频等)的理解,归纳并生成单模态或者多模态的概括性总结(摘要)的任务。根据具体任务类型,多模态摘要又可细分为视频会议摘要、教学视频摘要、多模态新闻摘要和多模态商品摘要。

视频会议摘要方面,Li等人提出了一个从音视频会议输入中提取会议文本摘要的方法,并在AMI数据集上验证了方法的有效性。AMI数据集包含137场视频会议。每场会议持续30分钟,包含4名参与者和约300字的文本摘要。

教学视频摘要方面,Palaskar等人提出一种融合视觉信息和文本信息(用户生成的和语音识别系统输出的)的生成式文本摘要方法,同时在开放域教学视频数据集How2上验证了方法的有效性。

多模态新闻摘要方面,Li等人提出一种从异步的多模态(文本、图像、音频和视频)输入中抽取文本摘要的方法,并发布了中文和英文数据集MMS。Li等人提出一种为“文本,图像”对生成多模态摘要的模型,同时发布了英文数据集MMSS。Zhu等人提出了一种从异步的多模态(文本和多张图像)输入中生成多模态(一段短文和一张图片)摘要的方法,同时发布了英文数据集MSMO。

多模态商品摘要方面,Li等人提出了一种从异构的多模态输入(文本、图像、商品属性表)中生成商品摘要的方法,同时发布了数据集CEPSUM。CEPSUM数据集由140万“商品文本介绍,商品图片,文本摘要”三元组组成,涉及3个商品大类。

05 多模态对齐

多模态对齐研究多个模态不同颗粒度元素间的对齐关系,具体又分为显式对齐和隐式对齐。视觉-语言跨模态的显式对齐任务研究图像和句子、图像和词、图像中的目标和句子中的短语间的对齐关系。多模态对齐方法可直接应用于多模态检索等应用,也可作为图像描述、VQA、多模态预训练的训练语料,尤其是在缺乏大规模多模态人工标注语料的场景。

图像和句子(或文档内其他文本单元)间的显式对齐通常是不存在的。对此,Hessel等人提出了一种将同一网页内的图像和句子对齐的无监督方法。该方法在7个难度不同的数据集上获得了不错的性能。Suhr等人定义了一个视觉推理任务NLVR2,对于给定的两幅图像和一段自然语言的描述,要求模型判断它们是否存在语义上的对齐关系。

文本预训练语言模型已经取得了巨大的成功,但该方法仅使用文本上下文信息作为监督信号,导致词的上下文表示学习严重依赖词的共现关系(Co-occurrence),缺乏外部物理世界的背景知识。为了给预训练语言模型提供视觉监督信号,Tan等人提出了Vokenization技术(图3),其通过给文本中的每一个词打上一幅图像的标签,实现在大规模文本语料上自动构建多模态对齐语料库。在大规模图像-词汇对齐的多模态语料库上训练的预训练语言模型可增强其对自然语言的理解能力。实验证明,该模型在多个纯文本的任务上(如GLUE、SQuAD和SWAG等)均获得了显著的性能提高。

图3 Vokenization技术示例
图3 Vokenization技术示例

图像中的目标和文本中的短语对齐也被称为图像短语定位(Phrase Grounding),可用于提高图像描述、VQA、视觉导航等视觉-语言下游任务的性能。Plummer等人发布了一个大规模的短语定位数据集Flickr30k Entities,如图4所示。Wang等人提出了一种基于细粒度视觉和文本表示的多模态对齐框架,在Flickr30k Entities数据集上显著提高了短语定位的性能。

图4 Flickr30k Entities标注示例-对齐的图像中的目标和文本中的短语用相同的颜色标记
图4 Flickr30k Entities标注示例-对齐的图像中的目标和文本中的短语用相同的颜色标记

视频定位(Video Grounding)是多模态对齐中另一项重要且具有挑战性的任务。给定一个查询(Query),它要求模型从视频中定位出与查询语言对应的一个目标视频片段。该技术可应用于视频理解、视频检索和人机交互等场景。常用数据集有Charades-STA、ActivityNet-Captions和TACoS。Charades-STA数据集是基于Charades数据集构建的,包括6672个视频和16128个“查询,视频片段”对。Activi-tyNet-Captions数据集包含两万个视频和10万个“查询,视频片段”对,其覆盖的视频类型更多样。TACoS数据集包含127个烹饪视频和18818个“查询,视频片段”。

06 多模态翻译

多模态翻译是将多模态输入(文本、图像或视频等)中的源语言文本转换为目标语言文本的过程。多模态翻译的目标是在视觉等多模态信息的辅助下,消除语言的歧义,提高传统文本机器翻译系统的性能。

Elliott等人于2015年首次提出多模态翻译任务。随后,在2016年举办的第一届机器翻译会议上成功组织了第一届多模态机器翻译比赛,并于接下来的两年连续举办了两届比赛,引发了研究者们对多模态机器翻译的关注热潮。目前的工作主要集中在Multi30k数据集上。该数据集是英语图像描述数据集Flickr30k的多语言扩展,每幅图像配有一个英语描述和一个德语描述,任务定义为给定图像和英语描述,生成德语描述。

模型方面,Huang等人首先从图像中提取视觉全局表示和视觉目标表示,提取的视觉表示被视为源语言中特殊的单词与文本拼接,再融入编码器-解码器神经网络翻译模型中的编码器中。在Calixto等人提出的模型中,视觉特征被视为源语言中特殊的单词,或者融入编码器中,或者融入解码器中。Calixto等人的模型显著提高了模型的翻译效果。文献[58-59]中的模型依赖大量的多模态翻译对齐语料(源语言、图像、目标语言)。对此,Elliott等人将多模态机器翻译分解为两个子任务:文本翻译和基于视觉的文本表示(Visually Grounded Representations)。该模型不依赖昂贵的(源语言、图像、目标语言)对齐语料。模型可以分别在文本翻译语料(源语言,目标语言)和图像描述(图像,源语言)语料上训练。

受文献[60]的启发,Zhou等人提出了一种机器翻译任务和视觉-文本共享空间(Vision-Text Shared Space)表示学习任务相结合的多任务多模态机器翻译框架(VAG-NMT)。VAG-NMT首先把文献[60]中的基于视觉的文本表示(即从文本表示重建图像)修改为视觉-文本共享空间表示学习。其次,VAG-NMT还提出了一种视觉文本注意机制,可以捕获与图像语义强相关的源语言中单词。

多模态机器翻译中的视觉信息只在非常特殊的情况下(如文本上下文不足以消除歧义词的歧义)对翻译模型有帮助。对此,Ive等人提出了一种翻译-优化(Translate-and-refine)的两段式翻译方法。该方法先翻译源语言中的文本,再使用视觉目标表示对第一阶段的翻译文本进行调整。大多数的多模态机器翻译模型没有考虑不同模态的相对重要性,但同等对待文本和视觉信息可能会引入一些不必要的噪声。

Yao等人基于Trans-former,提出了一种多模态自注意机制,探索了如何消除视觉特征中的噪音信号。一方面,单层多模态注意力模型难以有效提取视觉上下文信息,另一方面,多层多模态注意力模型容易导致过拟合,尤其是对训练数据少的多模态翻译。对此,Lin等人提出一种基于动态上下文指导的胶囊网络(Dynamic Context-guided Capsule Network,DCCN)提取和利用两种不同颗粒度(视觉全局表示和视觉区域表示)的视觉信息。也有研究者对多模态翻译的可解释性进行了探索。Wu等人的研究表明,视觉特征对多模态翻译的帮助来自于正则化,视觉特征的合理选取对模型性能至关重要。

07 多模态信息抽取

命名实体识别(NER)是指识别自由文本中的具体特定意义的实体(如人名、地名和组织机构名等)。命名实体识别虽然取得了较大的成功,但对于社交媒体中大量的用户生成内容(User-Generated Content,UGC),仅根据文本模态的信息来定位和分类其中的实体仍然存在一些挑战。多模态命名实体识别(MNER)通过引入视觉、语音等其他模态作为文本模态的补充,识别社交媒体中高噪声短文本中的实体,最近几年受到了比较多的关注。

模型方面,Moon等人首次提出了融合图像和文本模态信息的通用多模态注意力模型。文献[66]还发布了SnapCaptions数据集,该数据集由1万张“图像,短文本标题”对构成,并标注了短文本标题中的四类命名实体(实体类型:PER、LOC、ORG、MISC)。一方面,文献[66]中的方法提取的是图像的视觉全局表示,这可能把图像中的噪声信息也引入到模型中。另一方面,视觉和文本模态的特征融合较简单。对此,Zhang等人提出了一种自适应的协同注意力网络(Adaptive Co-attention Network,ACN)。ACN首先提取图像的视觉区域表示,再通过文本到视觉和视觉到文本的协同注意力剔除图像中的噪声信息,以提高MNER的性能。文献[67]在内部数据集上验证了该方法的有效性。基于类似的出发点,Lu等人提出了一种注意力机制与门控机制相结合的模型提取视觉图像中与文本最相关的区域的特征。该模型可忽略不相关的视觉信息。文献[68]基于注意力机制获取了单词感知(word-aware)的视觉表示,却忽略了图像感知(image-aware)的单词表示。对此,Yu等人首次将Transformer应用于多模态NER任务中,并提出了实体片段检测辅助任务,进一步消除视觉偏差,提升了模型效果。

Sui等人提出了融合语音和文本信息的多模态NER,并在自建的中文数据集CNERTA上验证了方法的有效性。

多模态信息抽取领域中另一个受到较多关注的研究方向是多模态商品属性抽取。多模态商品属性抽取是指从给定商品文本描述和商品图片中抽取商品的属性信息,例如商品的“颜色”“材料”等属性值。为了推动多模态商品属性抽取的研究,IV等人发布了首个大规模多模态属性提取英文数据集MAE。MAE包含400万图片和760万“属性-属性值”对。文献[71]提出的多模态属性抽取模型需要对每一个属性识别其对应的属性值,且无法滤除视觉噪声。为了提高模型的效率,Zhu等人将属性预测和属性值抽取建模为一个层叠化的多任务学习过程,实现了多个属性及其对应属性值的一次性识别,且视觉全局表示和视觉区域表示通过门控机制和文本信息融合,可有效过滤视觉噪声。Zhu等人还发布了一个包含9万“属性-属性值”对的多模态商品属性抽取中文数据集MEPAVE。

精彩推荐

1. 基于LEBERT的多模态领域知识图谱构建

2. 172篇 | COLING 2022论文集

3. CCKS2022 -《知识图谱发展报告(2022)》

4. 融合图注意力机制与预训练语言模型的常识库补全

5. 知识图谱问答领域综述

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01 多模态情感识别
  • 02 视觉-语言生成
    • 2.1 图像描述
      • 2.2 视频描述
        • 2.3 视觉叙事
        • 03 视觉问答和多模态对话
          • 3.1 视觉问答
            • 3.2 视觉对话
              • 3.3 多模态对话
              • 04 多模态摘要
              • 05 多模态对齐
              • 06 多模态翻译
              • 07 多模态信息抽取
              • 精彩推荐
              相关产品与服务
              NLP 服务
              NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档