学界 | 微软发布SynNet,迁移学习&无监督学习,比人更快读懂新知识

AI科技评论按:微软研究院对MRC领域迁移进行了首次尝试。他们最新提出的 SynNet 模型能在一个新的领域获得更准确的结果,而不需要额外的训练数据,并且网络性能接近全监督MRC系统。AI科技评论将其编译如下:

对人类来说,阅读理解是每天都在进行的基本任务。早在小学的时候,我们就能在阅读文章后,回答与文章的中心思想和细节相关的问题。

但对AI来说,完美的进行阅读理解仍然是一个难以实现的目标,但如果我们要评估和实现通用人工智能,就必须让AI达成这个目标。

实际上,许多现实生活中的场景,包括客户服务、建议、问答、对话和客户关系管理,都需要用到阅读理解。如果AI能完美的进行阅读理解,它将在一些情况下有惊人的潜能,比如在成千上万的文件中,迅速帮助医生找到重要的信息,让他们把时间用在更有价值的、可能会挽救生命的工作上。

因此,构建出能够进行机器阅读理解(MRC)的机器很有意义。比如在执行搜索请求时,机器理解将给出一个准确的答案,而不是抛给你一个网址,你需要点开之后在冗长的网页中找到答案。此外,机器理解模型能够理解狭窄和特定领域的文章中的知识,在那些领域中,支撑算法的搜索数据很少。

微软专注于机器阅读,目前正引领着该领域的竞争。微软的多个项目,包括用于机器理解的深度学习项目,也把目光投向了MRC。尽管取得了很大的进展,但微软还是忽视了一个关键问题,这个问题直到最近才被注意:怎样针对一个新的领域构建MRC系统?

最近,微软AI研究院的Po-Sen Huang、Xiaodong He等多名研究员和来自斯坦福大学的实习生David Golub针对这个问题开发了一种迁移学习算法。他们将在2017年的顶尖自然语言处理会议——EMNLP上介绍这种算法。这是开发出可扩展解决方案的关键步骤,可以将MRC扩展到更广泛的领域。

微软在朝着更大的目标在迈进,这种算法是他们取得进步的一个例子。他们想要用更复杂和微妙的能力来创造技术。

Rangan Majumder 在机器阅读博客上说过:“我们的目的不是建立一堆解决理论问题的算法,我们正在用这些算法解决实际问题,在实际的数据上测试他们。”

目前,大多数最先进的机器阅读系统都是建立在监督训练数据的基础之上,这些模型已经在样例上进行过端到端的训练。训练样例不仅包括文章,还包括与文章相关的手动标签的问题和问题相应的答案。

通过这些示例,基于深度学习的MRC模型学会理解问题并从文章中推断出答案,这包括多个论证和推理步骤。

然而,对于许多领域或行业而言,这种监督训练数据并不存在。例如,如果要建立一个新的机器阅读系统,来帮助医生找到与新疾病相关的重要信息,问题是:可能会有很多可用的文档,但是我们缺少与文档相关的手动标签的问题以及问题相应的答案。

这一挑战正在变大,因为我们需要为每种疾病建立一个独立的MRC系统,此外文献的数量正在急剧增加。因此,至关重要的是,要弄清楚如何让一个领域的MRC系统在另一个领域也能适用。在后面那个新的领域中,没有手动标签的问题,也没有问题相应的答案,但是有大量的文档。

微软的研究人员开发了一种新的模型——两级综合网络(SynNet),可以用来解决上面的问题。在这种方法中,基于一个领域中的监督数据,SynNet首先学会一种通用模式,这种通用模式能识别文章中可能的关注点。这些关注点指的是关键知识点、命名实体或语义概念,通常是人们可能会问到的问题的答案。然后,在第二级,模型会学着根据文章内容,围绕可能的答案,形成自然语言问题。

训练好的SynNet可以应用于新的领域。它可以在新的领域中阅读文档,针对这些文档生成伪问题和答案。然后,针对那个新的领域,生成必要的训练数据来训练MRC系统。这个新的领域可能是一种新的疾病,一本新公司的员工手册,或是一份新的产品手册。

产生合成数据来对不足的训练数据进行补充,这种想法在以前就有过研究。例如,针对于翻译任务,Rico Sennrich和他的同事们在一篇论文中提出了一种方法:根据真实的句子生成新的句子,用来完善已有的机器翻译系统。然而,与机器翻译不同的是,对于像MRC这样的任务,一篇文章需要既生成问题,又生成答案。此外,即使问题在语法上是流利的自然语句,答案通常是段落中某个突出的语义概念,例如一个命名实体、一段情节或是一个数字。由于答案与问题有不同的语言结构,因此将他们视为两种不同类型的数据可能更合适。

微软的新方法将产生问题-答案对的过程分成两步:先通过段落来生成答案,再通过段落和生成的答案,来生成问题。因为答案通常是关键的语义概念,所以会先生成答案。问题可以被看作组合起来的完整句子,用来询问前面的概念。

图:训练好的SynNet可以用于合成关于给定段落的答案和问题。模型的第一级是回答合成模块,使用双向长短时记忆网络(LSTM)来预测关于输入段落的输入、输出和开始(IOB)标签,这些标签标记出可能为答案的关键语义概念。第二级是问题合成模块,使用单向长短时记忆网络(LSTM)来生成问题,也生成段落中的嵌入词和IOB ID。段落中的多个span标签会被识别为可能的答案,但在生成问题时,他们只选择一个span标签。

两个从文章中生成问题和答案的例子,如下图所示:

使用SynNet后,能在一个新的领域获得更准确的结果,而不需要额外的训练数据,并且网络性能接近全监督MRC系统。

SynNet就像一名教师,根据她在以前的领域中学到的经验,从新的领域的文章中创造出问题和答案,并利用她的这些创造来教学生在新的领域中进行阅读理解。相应的,微软的研究人员也开发了一组神经机器阅读模型,包括最近开发的很有潜力的ReasoNet模型,这些模型就像是从教学资料中学习的学生,可以根据文章来回答问题。

据微软所知,这是进行MRC领域迁移的首次尝试。他们期待着开发可扩展的解决方案,快速扩展MRC的能力,进而释放出机器阅读颠覆性的潜力!

AI科技评论编译。

via: Microsoft Research Blog

论文地址:https://arxiv.org/abs/1706.09789

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

独家 | 如何改善你的训练数据集?(附案例)

这张幻灯片是Andrej Karpathy 在Train AI 演讲的一部分,我很赞同它表达的观点。它充分体现了深度学习在研究和应用上的差异。学术论文几乎全部集...

1124
来自专栏AI研习社

博客 | 重温五条 AI 基础规律

雷锋网AI 科技评论按:如果每个人都有足够的时间和热诚,并乐意去大学拿个 AI 学位,那你大概就不会读到这篇博客了。 虽说 AI 的工作方式挺神秘的,但在处理技...

921
来自专栏机器人网

一图了解人工智能之机器学习学习路径

1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯...

46713
来自专栏AI研习社

学 AI 和机器学习的人必须关注的 6 个领域

近期热门的话题, 人们开始重新讨论这一基本定义----什么是人工智能(AI)。有些人将 AI 重新命名为「认知计算」或「机器智能」,而其他人则错误地将 AI ...

1582
来自专栏量子位

连AI都在看《英雄联盟》游戏直播

原作:Robert Hunt(FormDs创始人) 李林 问耕 编译整理 量子位 出品 | 公众号 QbitAI 打游戏和看人打游戏,都是一种乐趣。 最近,吃鸡...

3778
来自专栏新智元

MIT 对抗学习和无监督学习最新进展:机器学会创作视频,预测人类行为

【新智元导读】LeCun曾在演讲中提到,2016年深度学习领域最让他兴奋的技术莫过于对抗学习,而无监督学习一直都是人工智能研究者孜孜追求的“终极目标”之一。MI...

39610
来自专栏PPV课数据科学社区

干货 | 从定义到应用,数据挖掘的一次权威定义之旅

什么是数据挖掘 前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了...

2955
来自专栏新智元

一文读懂量子机器学习:量子算法基石已经奠定

【新智元导读】在计算能力增加和算法进步的推动下,机器学习技术已成为从数据中寻找模式的强大工具。量子系统能生产出一些非典型(atypical)模式,而一般认为经典...

3346
来自专栏用户2442861的专栏

机器学习系列(7)_机器学习路线图(附资料)

http://blog.csdn.net/han_xiaoyang/article/details/50759472

2221
来自专栏新智元

微软研究院最新论文:机器具备连续图像叙事能力

【新智元导读】微软团队 NAACL 2016 论文,描述微软“连续图像叙事数据库”(SIND),也是首个用于连续视觉-语言转换的数据集,能逐步将独立图像转变为连...

3626

扫码关注云+社区

领取腾讯云代金券