前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >​写论文摘要很痛苦?一键生成神器了解一下

​写论文摘要很痛苦?一键生成神器了解一下

作者头像
统计学家
发布2019-09-17 16:14:11
2.1K0
发布2019-09-17 16:14:11
举报

图灵TOPIA

作者:Subramanian

编译:刘静

图灵联邦编辑部出品

谁能想到写个论文摘要还能有剧情反转?!

请仔细观察这篇论文的标题和摘要:

标题:利用Transformer语言模型对文档主题进行提取和抽象总结

摘要:我们展示了一个方法来产出长文稿的抽象摘要……(以下省略200字)…注:以上的摘要都不是作者自己写的,而是用本论文里描述的模型生成的 。

没错,这篇论文的核心思想就是利用Transformer帮大家自动写摘要,而令广大网友拍案叫绝的是,该论文的摘要就是用文中描述的方法生成的!

每次被论文摘要憋坏的你,有没有眼前一亮?

其实自动摘要技术解决的问题描述很简单,就是用一些精炼的话来概括整片文章的大意,用户通过读文摘就可以了解到原文要表达的意思。

问题解决的思路有两种

  • 一种是Extractive抽取式的,就是从原文中找到一些关键的句子,组合成一篇摘要。
  • 另外一种是Abstractive摘要式的,这就需要计算机可以读懂原文的内容,并且用自己的意思变大出来。

现阶段,相对成熟的是抽取式方案,有很多很多算法,也有一些baseline测试,但得到的摘要效果差强人意。

对后者的研究并不是很多,人类语言包括字、词、短语、句子、段落、文档这几个level,研究难度依次递增,理解句子、段落尚且困难,何况是文档,这是摘要生成最大的难点。

本文所用的方法就是Abstractive摘要式,重点是:研究人员在生成摘要之前执行一个简单的提取步骤,然后使用该步骤根据相关信息对transformer语言模型进行条件设置,然后再执行生成摘要的任务。

实验结果表明,该提取步骤显著改善了摘要结果。

图1:为科技论文的抽象摘要提出的模型

本文的旧版本显示为参考文档。首先,句子指针网络从论文中提取重要的句子。

接下来,这些句子和整篇科学文章一起提供,按照如下顺序排列:引言、提取的句子、摘要和论文的其余部分。

transformer语言模型是针对以这种格式组织的文章进行训练的。

在推理过程中,将引言和提取的句子作为上下文提供给语言模型,生成摘要。在新闻和专利文件等领域,引言被整个文档所替代。

transformer极其适合总结科技长文

研究人员表明,与之前使用复制机制的工作相比,transformer语言模型在总结长篇科学文章方面出奇地有效。

这种方法生成了更抽象的摘要,同时仍然可以获得更高的rouge评分,优于典型的seq2seq方法。

具体来说,研究人员使用与(Radford等人,2019)相同的transformer(Vaswani等人2017)语言模型(TLM)架构。

该模型有220M参数,20层,768维嵌入,3072维位置MLP和12个注意头。

架构(据他们所知)的唯一区别是不会在初始化时缩放权重。使用单个Nvidia DGX-2盒子在16个V100 GPU上训练语言模型5天。

使用线性上升学习速率表来进行前40,000次更新,最大学习率为2.5×e -4,然后使用Adam优化器在接下来的200,000步中将余弦退火时间表设置为0。

使用混合精确训练,批量大小为256个序列,每个1024个令牌。

为了得到一个无条件的语言模型来进行抽象概括,可以使用这样一个事实,即LMs是通过对自回归上的联合分布进行因式分解来训练的。

研究人员组织了LM的训练数据,使得实况摘要遵循模型用于生成系统摘要的信息。这样可以在训练期间模拟文档和摘要的联合分布,并从推理的给定文档的条件分布中抽样。

摘要生成结果更“抽象”

首先,原始摘要和以简介为条件的TLM与原始文章具有小且非常相似的重叠分数。另一方面,文中提出的模型产生了更多的“抽象”摘要,证明了它的释义能力。

该模型倾向于在引入条件和提取器的句子条件下复制较长的序列。

假设从文章中提取已经包含参考摘要中的大量单词的提取句子,通过允许transformer从提取的句子中复制单词和短语,使transformer的任务更容易。

表1:本文中使用的数据集的统计数据来自(Sharma, Li, and Wang 2019)——文档/摘要对的数量、文档中字数与摘要的比例以及摘要和文档中的字数

表2:arXiv数据集的摘要结果

表3:定性结果——新闻文章和文中模型在NewsRoom数据集中生成摘要

表4:NewsRoom数据集上的摘要结果。之前的工作成果来自

具体论文:

https://arxiv.org/pdf/1909.03186.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档