前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >"多模态数字内容生成"的技术探索与应用实践

"多模态数字内容生成"的技术探索与应用实践

作者头像
京东技术
发布2021-02-25 16:27:32
1.7K0
发布2021-02-25 16:27:32
举报
文章被收录于专栏:京东技术京东技术

Tech

多模态数字内容生成,泛指利用AI生成技术生成图像、视频、语音、文本、音乐等内容的合成技术。自然语言处理领域的GPT-3和计算机视觉领域的Deepfake让多模态数字内容生成,成为AI领域最受关注的技术方向之一。生成式AI也是2020首次进入Gartner技术成熟度曲线,跟踪其成熟度和未来潜力。在京东,多模态内容生成有非常多且有趣的应用场景:基于图像生成的虚拟试衣、AI音乐生成、商品营销文案生成、AI写诗、风格化AI书法生成、文本与图像的相互生成等等。

本文将从自动文本摘要的角度,分享2020年京东AI研究院在多模态数字内容生成领域的一些有趣的探索和实践成果,以及这一研究方向的发展趋势和应用场景。

01

看自动文本摘要的技术演进历程

自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务,其提出于 20 世纪 50 年代。自动文摘任务的目标是对于给定的文本或多模态输入,获得一段包含了其中最重要信息的简化文本。下图总结了自动文摘发展最近几年的发展趋势和代表性工作。

简单来说,自动文摘方法,包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization) 两大类。抽取式自动文摘,通过提取给定文本中已存在的关键词、短语或句子组成摘要。而生成式自动文摘,通过对给定文本建立抽象的语意表示,利用自然语言生成技术,生成摘要。在2015年之前,自动文摘模型以抽取式模型为主,代表性方法包括基于图模型的LexRank算法和基于聚类的方法。此时的自动文摘数据集规模也比较小。2015年之后,随着技术的快速发展,生成式自动文摘模型受到了学者广泛的关注,并逐渐成为主流,代表性方法包括基于RNN的Seq2seq模型,基于复制机制的Pointer-Generator模型,和近期盛行的基于Transformer和预训练语言模型的自动文摘模型。多个大规模自动文摘数据集(Gigaword,CNN-Daily Mail,XSUM,MSMO等)极大地推动了自动文摘技术的发展。

02

聚焦自动文本摘要的四个趋势,看“多模态数字内容生成”的蓝海

技术趋势一:

预训练语言模型

预训练模型进一步证明了“熟读唐诗三百首,不会作诗也会吟”同样适用于机器。生成式预训练(Generative pre-training)一定是自动文本摘要未来发展的重要方向之一。MASS、UniLM、T5、ProphetNet等模型在摘要数据上一次次刷新性能上线。

技术趋势二:

Transformer已成为文本生成的主流模型

在Transformer之前,主流的文本生成模型是基于RNN的Seq2Seq+Attention的框架。现如今,基于Transformer的文本生成模型在多项文本生成任务取得了超越RNN模型的性能。

(1)改进Transformer模型

但基于Transformer的文本生成模型的输出层词向量,存在表示退化(Representation Degeneration)问题,词向量矩阵的2d表示分布于一个狭窄的锥形区域内(如下图a、c)。词向量矩阵奇异值下降过快,导致第一奇异值和其余奇异值之间差距过大,这样的分布很大程度上限制了词向量的表达能力。受GAN思想的启发,我们提出了一种谱控制的方法发表在ICLR2020。该方法首先对输出层词向量进行奇异值分解,然后在训练过程中通过先验分布,显式的控制奇异值的退化。最终在机器翻译任务上超越其他state-of-the-art模型。

Wang, et al. Improving Neural LanguageGeneration with Spectrum Control. ICLR 2020.

(2)改进Transformer中的Copy机制

Copy机制(复制机制)是生成式自动文摘模型的一个重要机制,通过复制机制,可以将输入文本中的关键词直接复制到输出摘要中。传统的复制机制是将解码注意力权重作为复制概率,并不能显式地识别出输入文本中哪些词是重要的词。TextRank算法是一种无监督图算法,被广泛用于关键词抽取中,其可以利用邻接矩阵计算输入文本中每个词的重要性得分。我们的ACL 2020的工作将抽取式的TextRank算法融入到生成式的自动文摘模型,首先利用Transformer模型构造自注意力图,将其作为TextRank算法中的邻接矩阵,通过随机游走,计算输入中每个文本单元的重要性得分,将其作为复制概率的先验,指导复制概率,期望那些重要性得分高的词的被复制概率比其他词更大,进而使模型生成的摘要含有更多的关键信息。实验发现,我们提出的自注意力指导复制概率的模型,能更准确地捕捉到这些关键词,生成更高质量的摘要。

Xu, et al. Self-Attention Guided Copy Mechanism forAbstractive Summarization. ACL 2020.

技术趋势三:融合知识的文本生成模型

模型加入知识指导,通过知识和数据两者联合,实现高质量的内容生成,近几年备受研究者关注。在为商品创作营销文案时,衡量一篇自动生成的商品营销文案的维度有很多,比如内容是否吸引人、是否流畅等等。但生成的营销文案不能含有事实性错误,这是文本生成模型的底线。比如对于一款“变频冰箱”,模型不能生成“定频”属性。为了提高文本的忠实度,我们在COLING 2020提出了一个基于异构数据的文本生成模型,利用商品的知识图谱和商品描述文本,生成商品营销文案,并从两个方面提升文本的忠实度。一是对商品知识图谱的商品属性信息进行建模,利用由粗到精的注意力机制和双向复制机制,使文本生成模型更充分的挖掘商品知识图谱中的属性信息。二是提出了一个属性信息Only-Copy机制,即在解码属性词时,仅允许从输入文本中复制。这保证了错误属性不会出现在生成的商品文案中。实验结果显示,无论是自动评价指标ROUGE,还是人工评价的一致性和可读性指标,我们提出的模型都领先于基线模型。

Yuan, et al. On the Faithfulness for E-commerce ProductSummarization. COLING 2020.

为了获取到更加完整的商品知识,我们在EMNLP 2020提出了一种多模态商品知识图谱补齐模型。通过观察,我们发现商品图片信息有助于商品外观类属性信息的提取,对一些和外观无关的功能属性作用是有限的。为了有效地使用商品图片信息,同时不引入噪音,我们设计了一种融合全局和局部的门控机制的跨模态注意力模块,使模型可以选择性地使用商品的视觉信息辅助补齐商品知识图谱,相比于纯文本模型取得了显著的提升。

Zhu, et al. Multimodal Joint Attribute Prediction and ValueExtraction for E-commerce Product. EMNLP 2020.

另外,我们在AAAI 2020还提出了一种融合关键词知识的文本摘要模型,该模型融合了抽取式摘要和生成式摘要的优点,博采众长,生成最佳摘要文本。当人们在输入句子来创作摘要时,往往会先找出输入句子中的关键词,然后组织语言将这些关键词串联起来,确保其流畅性和语法的正确性。相较于纯粹的抽取式自动文摘和生成式自动文摘,基于关键词指导的生成式自动文摘,更接近于人们创作摘要时的习惯。基于此,我们提出一个基于关键词指导的自动文摘模型,通过多任务学习的方式,我们同时训练输入文本的关键词提取模型和摘要生成模型,我们认为这两个任务均需要编码器的一项能力,即能够识别输入文本中的重要信息的能力,所以我们将这两个模型共享同一个编码器。在生成摘要时,我们首先利用关键词提取模型提取输入文本中的关键词,然后利用门控机制或层次化注意力机制,选择性地将原始输入文本和关键词信息进行融合,最终生成信息更集中的文本摘要。

Li, et al. Keywords-Guided Abstractive SentenceSummarization. AAAI 2020.

技术趋势四:多模态与知识联合建模

虽然单模态数字内容生成已取得了较大的成功。但人类很多时候是融合了听觉、视觉、文字、常识等多方面信息进行内容生成的。通过多模态弥补单一模态的信息缺失,实现语言消歧,可以进一步提高文本单模态模型的效果。

(1)文本内容生成:多模态输入单模态输出

为了生成一篇卖点突出、内容丰富、带有画面感的商品文案,我们提出了一个基于商品要素的多模态商品信息自动摘要模型,其可以根据商品的文本描述、商品图片信息,自动生成商品营销短文。商品的外观决定了用户对该商品的第一印象,商品的功能卖点最终决定了用户的购买行为。我们提出的多模态商品信息自动摘要系统,可以有效的整合商品的外观和功能信息,自动捕捉到该商品的特色卖点,并为其生成一段简短的营销短文。另外,不同的用户关注的商品要素往往是不同的,比如同一款手机,有的用户关注“内存”,而有的用户关注“屏幕”。在融合多模态信息的基础上,我们以商品要素为切入点,挖掘商品最具卖点的要素,并从商品要素维度控制输出文本的信息冗余度、可读性,最终生成一段简洁凝练、卖点突出、流畅、合规的商品营销短文。

Li, et al. Aspect-Aware Multimodal Summarization for ChineseE-Commerce Products. AAAI 2020.

同样,多模态信息的有效融合,也可以有效提高新闻摘要的生成质量。因为新闻配图往往包含了新闻事件的关键信息,比如事件发生的地点和重要的人物或对象等,可对文本信息进行有效的补充。对此,我们在COLING 2020提出了一种多模态选择性编码机制,通过融合文本和多粒度的图像信息,包括图像的全局特征、局部特征和实体对象特征,构造多模态选择模块,借此滤除输入文本中的次要信息,得到更有效的输入文本编码特征,进而有助于解码器生成更高质量的文本摘要。

Li, et al. Multimodal Sentence Summarization via MultimodalSelective Encoding. COLING 2020.

(2)多模态内容生成:多模态输入多模态输出

传统的多模态摘要模型,往往仅使用目标文本作为监督信号,而忽视了图像信息,导致模态偏差问题,即模型会倾向于优化文本生成的质量,而忽视了图片的挑选过程。我们在AAAI 2020提出了一种多模态基准指导的多模态自动文摘方法,改进了多模态摘要训练的目标函数,在文本损失函数的基础上增加图片选择的损失函数。实验发现,我们提出的模型对于图片的挑选质量得到了显著的改善,文本生成质量也有所改进,最终可以生成更高质量的图文摘要。

Zhu, et al. Multimodal Summarization with Guidance ofMultimodal Reference. AAAI 2020.

03

有趣的实践:从国际学术论文到全球工业级应用

基于上述一系列创新技术,我们研发了面向商品的多模态文案创作工业级产品“品创”。“品创”四大亮点:

1. 生成卖点突出、文案流畅、忠实度高、风格多样且有创意的AI商品文案,其人工审核通过率超过90%;

2. 目前已支持3000多个品类,广泛应用于京东发现好货频道、社交电商京粉、京小智、搭配购、AI直播带货等内外部客户的实际场景中;

3. “品创”创作的文案曝光点击率,高出专业写手平均水平40%,同时,降低商品文案创作成本超过90%;

4. 相关技术申请国家发明专利30余项,并荣获2020年京东集团第八届京东技术最高奖“金项奖”。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-02-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 京东技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档