IJCAI 2018 | 腾讯知文等提出新型总结式摘要模型:结合主题信息和强化学习训练生成更优摘要

文章来源:机器之心。

让机器能根据文章的主题思想生成人类能够读懂的文本摘要是一个重要的 NLP 研究问题。腾讯知文团队、苏黎世联邦理工学院、哥伦比亚大学和腾讯 AI Lab 的研究者针对这一任务提出了一种引入主题模型和强化学习方法的卷积神经网络方法。该论文已被 IJCAI 2018 接收,机器之心在此进行了摘要介绍。

自动文本摘要在很多不同的自然语言处理(NLP)应用中都发挥着重要的作用,比如新闻标题生成[Kraaij et al., 2002] 和 feed 流摘要 [Barzilay and McKeown, 2005]。对于文本摘要来说,概括文章的中心思想、信息丰富性、内容代表性等,都是非常重要的。自动文本摘要的关键难题是准确评估摘要结果、选择重要信息、有效地过滤冗余内容、总结相关信息从而得到可读性强的摘要等。与其它 NLP 任务相比,自动文本摘要有自己的难点。比如,不同于机器翻译任务(输入和输出序列通常长度相近),摘要任务的输入和输出序列大都很不平衡。另外,机器翻译任务通常在输入和输出序列之间有一些直接词义层面的对应,这在摘要任务中却没那么明显。

自动摘要技术有两种类型,即抽取式(extraction)和总结式(abstraction)。抽取式摘要 [Neto et al., 2002] 的目标是通过选择源文档中的重要片段并将它们组合来生成摘要;而总结式摘要[Chopra et al., 2016] 则是根据文档的核心思想来重新组织生成摘要,因此这种摘要的灵活性更高。不同于抽取式摘要,总结式方法能够针对源文档的核心思想重新组织摘要语言,并确保所生成的摘要语法正确且保证可读性;这更接近于人类做摘要的方式,因此也是本论文关注的方法。

近段时间,深度神经网络模型已经在 NLP 任务上得到了广泛应用,比如机器翻译[Bahdanau et al., 2014]、对话生成 [Serban etal., 2016] 和文本摘要 [Nallapati et al., 2016b]。使用循环神经网络(RNN)[Sutskever et al., 2014] 的基于注意力机制的sequence to sequence框架 [Bahdanau et al., 2014] 在 NLP 任务上得到了尤其广泛的应用。但是,基于 RNN 的模型更容易受到梯度消失问题的影响,因为它们具有非线性的链式结构;相比而言,基于 CNN 的模型 [Dauphin et al., 2016] 的结构是分层式的。此外,RNN 的隐藏状态之间的时间依赖也影响了训练过程的并行化,这会使得训练效率低下。

在本论文中,我们提出了一种新方法,该方法基于卷积神经网络的sequence tosequence框架(ConvS2S)[Gehring et al., 2017] ,引入结合主题模型的注意力机制。就我们所知,这是自动总结式文本摘要问题首个采用卷积神经网络框架和多步注意力机制引入主题信息的研究,这能将主题化的和上下文的对齐信息提供到深度学习架构中。此外,我们还通过使用强化学习方法[Paulus et al., 2017] 对我们提出的模型进行了优化。本论文的主要贡献包括:

  • 我们提出了结合多步注意力机制和带偏置生成机制的方法,将主题信息整合进了自动摘要模型中,注意力机制能引入上下文信息来帮助模型生成更连贯、多样性更强和信息更丰富的摘要。
  • 我们在 ConvS2S 的训练优化中使用了self-critical强化学习方法(SCST:self-critical sequence training),以针对文本摘要的指标 ROUGE 来直接优化模型,这也有助于解决缓解曝光偏差问题(exposure biasissue)。
  • 我们在三个基准数据集上进行了广泛的实验,结果表明引入主题模型和SCST强化学习方法的卷积神经网络能生成信息更丰富更多样化的文本摘要,模型在数据集上取得了较好的文本摘要效果。

图 1:引入主题信息的卷积神经网络结构示意图。

引入强化学习和主题模型的卷积sequence tosequence框架

我们提出了引入强化学习和主题模型的卷积sequence to sequence模型,其包含一个包含词语信息和主题信息输入的、一种多步联合注意力机制、一种带主题信息偏置的文本生成结构和一个强化学习训练过程。图 1 展示了这种引入主题信息的卷积神经网络模型。

ConvS2S 架构

我们使用 ConvS2S架构 [Gehring etal., 2017] 作为我们的模型的基础架构。在这篇论文中,我们使用了两个卷积模块,分别与词层面和主题层面的embedding相关。

引入主题模型的多步注意力机制

主题模型是一种用于发现源文章集合中出现的抽象主题思想或隐藏语义的统计模型。在本论文中,我们使用了主题模型来获取文档的隐含知识以及将引入主题信息的多步注意力机制集成到ConvS2S 模型中,这有望为文本摘要提供先验知识。现在我们介绍如何通过联合注意机制和带偏置概率生成过程将主题模型信息引入到基本 ConvS2S 框架中。

结果和分析

表 4:模型在 Gigaword语料库上生成的摘要示例。D:源文档,R:参考摘要,OR:引入强化学习的 ConvS2S 模型的输出,OT:引入主题模型和强化学习的 ConvS2S模型的输出。蓝色标记的词是参考摘要中没有出现的主题词。红色标记的词是参考摘要和源文档中都没有出现的主题词。

表 5: Rouge 在 DUC-2004 数据集上的准确度分数。在每种分数上的最佳表现用粗体表示。

表7:模型在中文语料库LCSTS上生成的摘要示例。D:源文档,R:参考摘要,OR:引入强化学习的 ConvS2S 模型的输出,OT:引入主题模型和强化学习的 ConvS2S模型的输出。蓝色标记的词是参考摘要中没有出现的主题词。红色标记的词是参考摘要和源文档中都没有出现的主题词。

论文:一种用于总结式文本摘要的引入主题信息和强化学习的卷积sequence to sequence模型

(A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Modelfor Abstractive Text Summarization)

在本论文中,我们提出了一种解决自动文本摘要任务的深度学习方法,即将主题信息引入到卷积sequenceto sequence(ConvS2S)模型中并使用self-critical强化学习训练方法(SCST)来进行优化。引入词语和主题信息,加入多步注意力机制,我们的方法可以通过带主题偏置的概率生成机制提升所生成摘要的连贯性、多样性和信息丰富性。另一方面,SCST 这样的强化学习训练方法可以根据针对摘要的评价指标 ROUGE 直接优化模型,这也能缓解曝光偏差问题。我们在Gigaword、 DUC-2004 和 LCSTS 数据集上进行实验评估,结果表明我们提出的方法在总结式摘要上的优越性。

原文发布于微信公众号 - 腾讯知文(tencent_wisdom)

原文发表时间:2018-05-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

干货!这里有一份神经网络入门指导,请收下!

图片来源于网络 翻译 | 林椿眄 编辑 | Donna 本周,我们为您准备了一份数据科学家Ben Gorman撰写的神经网络指导。这份指导包含了他具体的学习思路...

2919
来自专栏CVer

【重磅】卷积神经网络为什么能称霸计算机视觉领域?

在机器视觉和其他很多问题上,卷积神经网络取得了当前最好的效果,它的成功促使我们思考一个问题,卷积神经网络为什么会这么有效?在本文中,SIGAI将为大家分析卷积神...

783
来自专栏目标检测和深度学习

Kaggle 植物幼苗分类大赛优胜者心得

在本文中,作者将向大家介绍其在 Kaggle 植物幼苗分类大赛(https://www.kaggle.com/c/plant-seedlings-classif...

1693
来自专栏机器之心

回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)

选自EliteDataScience 机器之心编译 参与:蒋思源、晏奇 在本教程中,作者对现代机器学习算法进行一次简要的实战梳理。虽然类似的总结有很多,但是它们...

3065
来自专栏机器之心

IJCAI 2018 | 腾讯知文等提出新型生成式摘要模型:结合主题信息和强化训练生成更优摘要

1843
来自专栏目标检测和深度学习

目标检测入门(二):模型的评测与训练技巧

文章结构 ? 检测模型的评测指标 目标检测模型本源上可以用统计推断的框架描述,我们关注其犯第一类错误和第二类错误的概率,通常用准确率和召回率来描述。准确率描述了...

4556
来自专栏专知

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【导读】近日,中山大学、新加坡国立大学和奇虎360人工智能研究院团队提出了一种具有注意机制的对抗哈希网络(adversarial hashing network...

3945
来自专栏云时之间

机器学习常用算法的分类

大家新年好,在经历过新年假期以后,现在让我们来看看机器学习常用的算法的分类。 在以前我的文章中我们可以发现机器学习是一个及其庞大的门类,里面包括各种五花八门的算...

3405
来自专栏量子位

谷歌推出理解神经网络的新方法SVCCA | NIPS论文+代码

夏乙 编译自 Google Research Blog 量子位 出品 | 公众号 QbitAI Google Research官方博客今天发文介绍了他们的一篇N...

2734
来自专栏机器之心

入门 | 机器学习中常用的损失函数你知多少?

机器通过损失函数进行学习。这是一种评估特定算法对给定数据建模程度的方法。如果预测值与实际结果偏离较远,损失函数会得到一个非常大的值。在一些优化函数的辅助下,损失...

772

扫码关注云+社区