首页
学习
活动
专区
工具
TVP
发布

Microsoft开发灵活的AI系统,可以总结新闻

将段落压缩成句子对于人工智能(AI)来说并不容易。这是因为它需要对文本的语义理解,这超出了大多数现成的自然语言处理模型的能力。但微软的研究人员最近证明,这并非不可能。

在预印本服务器Arxiv.org上发表的一篇论文(“ 结构化神经概述 ”)中,英国剑桥微软研究院的科学家们描述了一个人工智能框架,可以推断“弱结构”文本中的关系,使其优于传统的NLP模型在一系列文本摘要任务上。

当接受CNN和每日邮报的文章训练时(以及总结每篇文章的句子),它能够生成以下摘要:

n'golo kante吸引了众多顶级联赛俱乐部的兴趣。马赛一直与卡恩签约,签下这位24岁的球员。这位24岁的小伙子在身材方面与lassana diarra和claude madelele有相似之处。

它调用像Primer这样的系统,它使用AI来解析和整理大量文档。但微软的人工智能更具普遍性。

研究人员写道:“总结,将大而复杂的输入压缩成保留输入核心语义的较小表示的任务,是自然语言处理系统的经典任务。” “自动摘要需要机器学习组件来识别它们之间的重要实体和关系,同时忽略冗余和常见概念......然而,虽然标准[模型]理论上有能力处理任意长距离关系,但实际上它们往往无法正确处理长文本,很容易被简单的噪音分散注意力。“

它们的两步解决方案包括一个扩展序列编码器 - 一个处理输入序列的AI模型,并根据目标序列的先前字符预测目标序列的下一个字符 - 以及直接从图形表示中学习的神经网络。带注释的自然语言。

混合系统利用序列编码器(一个扩展来利用输入数据中元素之间的已知关系)来为图形网络提供“丰富输入”:双向长短期网络(LSTM)和序列GNN扩展,以及具有指针网络扩展的LSTM解码器。(双向LSTM是一类能够学习长期依赖性的递归神经网络;它们允许神经网络将其记忆和输入结合起来,以提高其预测准确性。)

上图:摘自文章摘要。

图片来源:微软

团队设置模型 - 序列GNN - 松散于三个汇总任务:方法命名,或在给定源代码的情况下推断代码函数(或方法)的名称; 方法doc,预测方法功能的描述; 和NL总结,创建一个新的自然语言摘要给出一些文本输入。

为第一个任务选择了两个数据集:一个小型Java数据集,它被拆分用于培训,验证和测试; 以及从GitHub挖掘的C#中的23个开源项目生成的第二个数据集。对于第二个任务 - 方法文档 - 研究人员使用了23个开源C#项目的数据集,而对于第三个任务(NL摘要),他们从CNN和每日邮报中删除了上述新闻文章(以及总结每篇文章的句子)。

为了生成AI模型可以从中提取信息的图形,团队首先将数据分解为标识符标记(和子标记),然后通过连接标记构建图形。代码被标记为变量,方法,类和其他类型,而文章语料库中的文本则通过斯坦福的CoreNLP开源标记化工具运行。

那么AI系统的表现如何呢?

序列GNN在Java和C#数据集上的方法命名任务中实现了最先进的性能,其中F分数(描述从0到1的性能的度量)分别为51.4和63.4。它在Method doc中表现略差,研究人员记录了预测的长度。(与模型16相比,基本事实平均有19个令牌。)在NL总结中,它没有达到最近的工作; 据说,研究人员认为这是“由于......简单的解码器”和“培训目标”,并且可以在未来的工作中得到改进。

“我们对这一初步进展感到兴奋,并期待 在正式和自然语言的各种任务中更深入地整合混合序列图建模,”他们写道。“我们认为广泛适用的关键见解是,显式关系建模引起的归纳偏差是提高现有深度学习系统实际性能的一种简单方法。”

  • 发表于:
  • 原文链接https://venturebeat.com/2018/11/06/microsoft-researchers-develop-ai-system-that-can-generate-articles-summaries/
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券