【业界】谷歌又双叒叕开源:TensorFlow 自动文本摘要生成模型

【新智元导读】本次谷歌开源的TensorFlow主要用于文本中的信息提取,并生成摘要,尤其擅长长文本处理,这对自动处理海量信息十分有用。这一模型当下最典型的例子是新闻报道标题自动生成。这对机器学习能力至关重要,可以想想为什么中外的大学入学考试中阅读理解这道题都占了很大分值。

(文/ 谷歌大脑软件工程师 Peter Liu) 每天,人们都依靠大量的信息源,来获取信息,从新闻报道到社交媒体帖子再到搜索结果。能够针对长文本自动生成精确摘要的机器学习模型对于以压缩形式处理大量信息是非常有用的,这也是谷歌大脑(Google Brain)团队的一个长期目标。

对于机器来说,摘要也可以用作一个有趣的阅读理解测试。为了做好摘要,机器学习模型需要能够理解文档、提取重要信息,这些任务对于计算机来说是极具挑战的,特别是在文档长度增加的情况下。

为了推动这一研究,我们开源了在Annotated English Gigaword ——一个摘要研究中常用数据库中执行生成新闻标题任务的Tensor Flow模型代码。我们还列举了文档中的超参数,在使用ROUGE(metric)验证的最常用模型中,我们的超参数在写作时间上可以获得当下最好的结果。

模型地址:https://github.com/tensorflow/models/tree/master/textsum

抽取和概括型摘要

做摘要的一个方法是提取文档中被认为有价值的部分信息(比如,倒排文档频率),然后把他们组合起来,形成一个摘要。这种类型的算法被称为抽取型摘要(Extractive summarization)。

原始文本:Alice and Bob took the train to visit the zoo. They saw a baby giraffe, a lion, and a flock of colorful tropical birds.

抽取型摘要:Alice and Bob visit the zoo. saw a flock of birds.

在上面这个例子中,我们提取了原始文本中加粗的单词,把他们组成一个句子。正如我们所见,有时候,提取的限定,会使得生成的摘要很奇怪,或者从语法上很不通。

另一种办法简单地提炼摘要,正如人类所做的那样,这种方法中,不要加入提取限定,并允许重新措辞,这被称为概括型摘要。

还是以上那段文本,概括型摘要的结果是: Alice and Bob visited the zoo and saw animals and birds.

在这个例子中,我们使用的单词并不出现在原始的文本中,但是却用相同数量的单词,保留了更多的原文信息。显然,我们会更喜欢好的概括型摘要,但是,一个算法要怎么做到?

关于这一TesorFlow模型

研究结果表明,在更短的文本中,摘要可以使用序列到序列的深度学习技术来端到端地学习,这和邮件中的自动回复的技术原理类似。需要强调的是,我们能够训练这样的模型,来为新闻报道生成很好的标题。我们提供的例子中,这一模型在阅读文章好,写出了非常适合的标题。

先要了解这一模型能产出什么,你可以查看下文的一些例子。第一列显示的是一个新闻报道中的一句话,也就是模型的输入,第二列显示的是模型写出来的标题。

Input: Article 1st sentence

Model-written headline

metro-goldwyn-mayer reported a third-quarter net loss of dlrs 16 million due mainly to the effect of accounting rules adopted this year

mgm reports 16 million net loss on higher revenue

starting from july 1, the island province of hainan in southern china will implement strict market access control on all incoming livestock and animal products to prevent the possible spread of epidemic diseases

hainan to curb spread of diseases

australian wine exports hit a record 52.1 million liters worth 260 million dollars (143 million us) in september, the government statistics office reported on monday

australian wine exports hit record high in september

进一步研究

我们通过观察发现,由于新闻的特殊格式,模型只要阅读文章的开头几句话,就能生产一个很好的标题。虽然,这一任务已经可以作为我们所提出的概念的一个很好的验证,我们仍然在寻找难度更高的数据库,在这些数据库中,想要得出好的摘要,只有通读全文才可能。在这些任务中,从头开始训练这一模型架构并没有获得我们此前达到的水平,但是这至少是个开始。我们希望通过本次开源,能够为其他的摘要研究奠定基础。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-08-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

麻省理工解读神经网络历史,三篇论文剖析基础理论

选自MIT News 作者:Larry Hardesty 机器之心编译 参与:吴攀、李亚洲、晏奇 最近几年来,深度神经网络已经成为了人工智能技术发展的主要推动力...

383130
来自专栏大数据挖掘DT机器学习

NLP中自动生产文摘(auto text summarization)

最近几年在人工智能领域中大热的工程技术deep learning,将机器对图像,语音,人类语言的认知能力都提升了不少,前前后后也涌现出不少不仅仅是很cool而且...

84050
来自专栏新智元

纽约大学联合谷歌大脑提出「COG」数据集,可提高系统的「视觉推理」能力

【新智元导读】在认知心理学和神经科学中丰富的视觉推理和记忆传统的启发下,我们开发了一个人工的、可配置的视觉问题和答案数据集(COG),用于在人类和动物中进行平行...

332110
来自专栏人工智能

用神经模块网络学习推理

(与 Ronghang Hu, Marcus Rohrbach, Trevor Darrell, Dan Klein and Kate Saenko合作)

36760
来自专栏范传康的专栏

基于云计算的 CV 移动交互应用研究:头部姿态估计综述(2)

导语 随便说说,其一,项目的原名是“CV移动交互应用的前后台框架”,为了高大上,起了个“云计算”;其二,这是动手写的第一篇,不过在规划里面第二篇,第一篇项目概述...

575100
来自专栏机器之心

神经图灵机深度讲解:从图灵机基本概念到可微分神经计算机

选自Talla Blog 作者:Daniel Shank 机器之心编译 参与:马亚雄、吴攀 本文作者为 Talla 公司的高级数据科学家 Daniel Shan...

43380
来自专栏人工智能

深度学习领域四个不可不知的重大突破

作者|Seth Weidman 译者|大愚若智 编辑|Emily 为何阅读本文? 无论该领域中的从业者,或是企业组织,为了运用深度学习技术,首先需要做好两个准备...

24090
来自专栏PPV课数据科学社区

面试机器学习、数据挖掘等大数据岗位必备

? part1—-面试常见内容及面试技巧 机器学习、大数据相关岗位的职责 自己参与面试的提供算法岗位的公司有 BAT、小米、360、飞维美地、宜信、猿题库 等...

37160
来自专栏机器之心

前沿 | 将逆向课程生成用于强化学习:伯克利新研究让智能体掌握全新任务

386100
来自专栏新智元

【超越CycleGAN】这个人体动态迁移技术让白痴变舞王(视频)

CycleGAN利用pixel2pixel技术,能自动将某一类图片转换成另外一类图片,过度真实自然,可以说是2017年最受关注的模型之一。CycleGAN论文的...

74640

扫码关注云+社区

领取腾讯云代金券