学界 | 微软发布SynNet,迁移学习&无监督学习,比人更快读懂新知识

AI科技评论按:微软研究院对MRC领域迁移进行了首次尝试。他们最新提出的 SynNet 模型能在一个新的领域获得更准确的结果,而不需要额外的训练数据,并且网络性能接近全监督MRC系统。AI科技评论将其编译如下:

对人类来说,阅读理解是每天都在进行的基本任务。早在小学的时候,我们就能在阅读文章后,回答与文章的中心思想和细节相关的问题。

但对AI来说,完美的进行阅读理解仍然是一个难以实现的目标,但如果我们要评估和实现通用人工智能,就必须让AI达成这个目标。

实际上,许多现实生活中的场景,包括客户服务、建议、问答、对话和客户关系管理,都需要用到阅读理解。如果AI能完美的进行阅读理解,它将在一些情况下有惊人的潜能,比如在成千上万的文件中,迅速帮助医生找到重要的信息,让他们把时间用在更有价值的、可能会挽救生命的工作上。

因此,构建出能够进行机器阅读理解(MRC)的机器很有意义。比如在执行搜索请求时,机器理解将给出一个准确的答案,而不是抛给你一个网址,你需要点开之后在冗长的网页中找到答案。此外,机器理解模型能够理解狭窄和特定领域的文章中的知识,在那些领域中,支撑算法的搜索数据很少。

微软专注于机器阅读,目前正引领着该领域的竞争。微软的多个项目,包括用于机器理解的深度学习项目,也把目光投向了MRC。尽管取得了很大的进展,但微软还是忽视了一个关键问题,这个问题直到最近才被注意:怎样针对一个新的领域构建MRC系统?

最近,微软AI研究院的Po-Sen Huang、Xiaodong He等多名研究员和来自斯坦福大学的实习生David Golub针对这个问题开发了一种迁移学习算法。他们将在2017年的顶尖自然语言处理会议——EMNLP上介绍这种算法。这是开发出可扩展解决方案的关键步骤,可以将MRC扩展到更广泛的领域。

微软在朝着更大的目标在迈进,这种算法是他们取得进步的一个例子。他们想要用更复杂和微妙的能力来创造技术。

Rangan Majumder 在机器阅读博客上说过:“我们的目的不是建立一堆解决理论问题的算法,我们正在用这些算法解决实际问题,在实际的数据上测试他们。”

目前,大多数最先进的机器阅读系统都是建立在监督训练数据的基础之上,这些模型已经在样例上进行过端到端的训练。训练样例不仅包括文章,还包括与文章相关的手动标签的问题和问题相应的答案。

通过这些示例,基于深度学习的MRC模型学会理解问题并从文章中推断出答案,这包括多个论证和推理步骤。

然而,对于许多领域或行业而言,这种监督训练数据并不存在。例如,如果要建立一个新的机器阅读系统,来帮助医生找到与新疾病相关的重要信息,问题是:可能会有很多可用的文档,但是我们缺少与文档相关的手动标签的问题以及问题相应的答案。

这一挑战正在变大,因为我们需要为每种疾病建立一个独立的MRC系统,此外文献的数量正在急剧增加。因此,至关重要的是,要弄清楚如何让一个领域的MRC系统在另一个领域也能适用。在后面那个新的领域中,没有手动标签的问题,也没有问题相应的答案,但是有大量的文档。

微软的研究人员开发了一种新的模型——两级综合网络(SynNet),可以用来解决上面的问题。在这种方法中,基于一个领域中的监督数据,SynNet首先学会一种通用模式,这种通用模式能识别文章中可能的关注点。这些关注点指的是关键知识点、命名实体或语义概念,通常是人们可能会问到的问题的答案。然后,在第二级,模型会学着根据文章内容,围绕可能的答案,形成自然语言问题。

训练好的SynNet可以应用于新的领域。它可以在新的领域中阅读文档,针对这些文档生成伪问题和答案。然后,针对那个新的领域,生成必要的训练数据来训练MRC系统。这个新的领域可能是一种新的疾病,一本新公司的员工手册,或是一份新的产品手册。

产生合成数据来对不足的训练数据进行补充,这种想法在以前就有过研究。例如,针对于翻译任务,Rico Sennrich和他的同事们在一篇论文中提出了一种方法:根据真实的句子生成新的句子,用来完善已有的机器翻译系统。然而,与机器翻译不同的是,对于像MRC这样的任务,一篇文章需要既生成问题,又生成答案。此外,即使问题在语法上是流利的自然语句,答案通常是段落中某个突出的语义概念,例如一个命名实体、一段情节或是一个数字。由于答案与问题有不同的语言结构,因此将他们视为两种不同类型的数据可能更合适。

微软的新方法将产生问题-答案对的过程分成两步:先通过段落来生成答案,再通过段落和生成的答案,来生成问题。因为答案通常是关键的语义概念,所以会先生成答案。问题可以被看作组合起来的完整句子,用来询问前面的概念。

图:训练好的SynNet可以用于合成关于给定段落的答案和问题。模型的第一级是回答合成模块,使用双向长短时记忆网络(LSTM)来预测关于输入段落的输入、输出和开始(IOB)标签,这些标签标记出可能为答案的关键语义概念。第二级是问题合成模块,使用单向长短时记忆网络(LSTM)来生成问题,也生成段落中的嵌入词和IOB ID。段落中的多个span标签会被识别为可能的答案,但在生成问题时,他们只选择一个span标签。

两个从文章中生成问题和答案的例子,如下图所示:

使用SynNet后,能在一个新的领域获得更准确的结果,而不需要额外的训练数据,并且网络性能接近全监督MRC系统。

SynNet就像一名教师,根据她在以前的领域中学到的经验,从新的领域的文章中创造出问题和答案,并利用她的这些创造来教学生在新的领域中进行阅读理解。相应的,微软的研究人员也开发了一组神经机器阅读模型,包括最近开发的很有潜力的ReasoNet模型,这些模型就像是从教学资料中学习的学生,可以根据文章来回答问题。

据微软所知,这是进行MRC领域迁移的首次尝试。他们期待着开发可扩展的解决方案,快速扩展MRC的能力,进而释放出机器阅读颠覆性的潜力!

AI科技评论编译。

via: Microsoft Research Blog

论文地址:https://arxiv.org/abs/1706.09789

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据科学】数据科学中隐藏的数据智慧

在大数据时代,学术界和业界的大量研究都是关于如何以一种可扩展和高效率的方式来对数据进行储存,交换和计算(通过统计方法和算法)。 这 些研究领域无疑非常重要,然而...

2615
来自专栏大数据文摘

深度丨掌握地球?智能机器带来的真正风险

1404
来自专栏AI科技评论

干货 | 清华博士生孙奕帆:行人再识别论文介绍及最新进展

AI 科技评论按:提到计算机视觉领域的研究,大家可能最先想到的是人脸识别,其实还有一个更为实用的研究应用——行人再识别。行人再识别是利用计算机视觉技术在图像或视...

3325
来自专栏新智元

【Science】DeepMind关系推理ANN,在图像理解中击败人类

【新智元导读】人类通常相当擅长关系推理,但对 AI 来说是难点。谷歌 DeepMind 研究人员提出了用于关系推理的人工神经网络。它拥有处理图像、分析语言甚至学...

51317
来自专栏祝威廉

从内容/用户画像到如何做算法研发

中午和一前同事一起用餐,发现还是有很多碰撞点的。交流了很多正在做的事情, 对方也提供了非常多的思想值得自己很好的思考。

1013
来自专栏大数据文摘

数据科学中的“数据智慧”

16210
来自专栏新智元

【创造人类水平AI】Bengio 纵览深度学习前沿:从 GAN 到极深网络

【新智元导读】深度学习大牛 Yoshua Bengio 日前在 Beneficial AI 大会上发表题为《创造人类水平AI》的演讲,总结深度学习技术发展及问题...

3328
来自专栏ATYUN订阅号

【业界】是时候解决深度学习的生产力问题了

深度学习正在推动从消费者的手机应用到图像识别等各个领域的突破。然而,运行基于深度学习的人工智能模型带来了许多挑战。最困难的障碍之一是训练模型所需的时间。 ? 需...

3296
来自专栏新智元

拥抱深度学习还是数学的优雅?神经网络对图像处理、数学和人类的影响

【新智元导读】本文作者 Michael Elad 是以色列理工学院计算机科学系教授,也是成像科学期刊 SIAM 的主编。他对当前图像领域使用深度学习的矛盾做了深...

54817
来自专栏MixLab科技+设计实验室

写给设计师的人工智能指南:图像

“在未来30年, 人工智能将取代目前世界上50%的工作。” ——莱斯大学 计算机科学教授 Moshe Vardi 不管未来怎么样,我觉得提高设计师的效率是眼前最...

4238

扫码关注云+社区