深度学习统治即将开始 | Manning在SIGIR演讲PPT实录

【新智元导读】国际计算机协会信息检索大会正在意大利的比萨举行,自然语言理解领域的顶级科学家Christopher Manning受邀发表主旨演讲。他认为,信息检索和自然语言理解两个领域可以互通,接下来几年,深度学习将会统治SIGIR。

Christopher Manning是斯坦福大学计算机科学和语言学教授,曾在卡内基梅隆大学和悉尼大学任教。Manning关注使用机器学习研究计算机语言难题,比如句法分析,计算机语义学、机器翻译等,以及使用深度学习解决自然语言理解(NLP)难题。他还是 ACM Fellow, AAAI Fellow,ACL Fellow。

Manning说,信息检索(IR)和NLP中,有许多问题都是重叠的。IR系统是从理解用户需要和理解文档中生成,进而能够决定某一个文件是否能够满足用户的需要。大多数的NLP做的也是一样的事:NLP的目的是理解问题和文件的意思,以及关系。

NLP中深度学习方法的应用,为计算机语义理解带来了一个有效的工具。演讲集中在两个主题:一是NLP怎样能帮助文本关系理解;二是深度学习如何从根本上实现这一目标。

在这一方面,最成功的工具是新一代的分布式词语表征:神经词汇嵌入。然而,除了词义之外,我们还需要理解怎么分析大型文本的含义。这产生了两个基本的要求,一个是理解人类语言表达的结构,另一个是分析含义。

深度学习的方法在这两方面都能起到作用。最终,我们需要理解文本内的关系,能够处理例如自然语言推理、问答之类的问题。我会继续关注这些领域的研究,有神经网络和没有神经网络的都关注。

Manning在演讲的最后说:“我很确定,在接下来的几年中,深度学习将会统治SIGIR,正如在语音、视觉和NLP领域中所做到的那样。而这是一件很好的事情。……但是我们也应该意识到,在深度学习和人工智能中,当下有许多过于夸张的宣传。最后,虽然有很多人都做了大量的努力,但是实际上,在人类语言技术领域,IR、NLP和语音等有着巨大的隔离。最近的变化显示,用IR,人们希望更好的理解用户,用NLP人们更关注意义和文本,这意味着,两个领域间有大量的共同点,我会在接下来的10年中鼓励NLP和IR领域更多的合作。”

以下是Mannning演讲PPT:

在新智元后台回复0721可下载

演讲题目:自然语言推理,阅读理解和深度学习

通过问答实现机器理解(Burge)

“如果机器能理解一段文本。那么对于文本中那些大多数以这种语言为母语的人都能正确解答的问题,机器能提供一个string,这个String都被那些以这种语言的人认为是正确的答案,且不包含任何跟问题无关的信息。

IR(信息检索)需要语言理解

造成IR和NLP分隔的几种原因:IR 深刻地聚焦于效率和规模;NLP过于关注形式而不是意义。

但是,IR需要更精确,需要结合NLP。

目录:

  1. 自然逻辑:人类语言用于推理的弱逻辑
  2. 分布式词语表征
  3. 深度、递归神经网络语音理解

IR怎样才能被看成是定理证明,而不是配对。

Manning和Angeli、Nayak在ACL2016发表的论文(在新智元后台回复0720下载)

我们怎么用更宽泛的知识实现表征和推理

自然语言推理

作为知识基础的文本

推理:回答问题的前提

文本代表意义

自然逻辑:文本中的逻辑推理

常识推理

例子推理

“软”自然逻辑

处理真实的句子

普遍的依赖关系(UD)

最小子句

加入一个词汇对齐分类器

完整的系统

解决纽约州四年级科学问题

自然逻辑

信息检索能从词语的分布式表征中获益吗?

从象征到分布式表征

从象征到分布式表征

扑捉相似性

分布式相似性表征

学习神经网络词语嵌入

分布的分布式表征,词义和词义相似性得到扑捉。

分布式表征能解决NLP工具的不稳定性

分布式表征能扑捉到IR相似性中的长尾

隐藏词义分析 (LAS)VS Word2Vec

Word2Vec 把词义组成当成延长关系编码

COALS 模型

计数回归 vs 直接预测

在矢量差异中编码意义

Glove词汇相似性

Glove 可视化

Glove 可视化:公司-CEO

几种工具对名称理解的表现

词的嵌入:总结

我们能使用神经网络去不只理解词的相似性,还有语言的总体含义吗?

人工智能要能够从小的局部开始理解更大、更多的东西。

除了词语嵌入,我们还需要更多。

情感探测

斯坦福情感探测树

树结构:长短期记忆网络

LSTM树结构

Treebank的积极和消极结果

Treebank的实验结果

斯坦福自然语言推理语料库

树RNN的NLI

树型递归神经网络

递归神经网络让GPU上的成批计算更加有效

树型递归神经网络:输入具体化的结构破坏了成批计算

SPINN

开始观察:双边树=转换序列

SPINN

堆(stack)的实施

更薄的堆

使用SPINN进行自然语言推理

结果

SPINN比LSTM更成功

结语:我很确定,在接下来的几年中,深度学习将会统治SIGIR,正如在语音、视觉和NLP领域中所做到的那样。而这是一件很好的事情。……但是我们也应该意识到,在深度学习和人工智能中,当下有许多过于夸张的宣传。最后,虽然有很多人都做了大量的努力,但是实际上,在人类语言技术领域,IR、NLP和语音等有着巨大的隔离。最近的变化显示,用IR,人们希望更好的理解用户,用NLP人们更关注意义和文本,这意味着,两个领域间有大量的共同点,我会在接下来的10年中鼓励NLP和IR领域更多的合作。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

中国大数据专家委员会顾问、中国科学院院士张钹:大数据与人工智能研究的思考

15940
来自专栏数据派THU

清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲...

52030
来自专栏人工智能快报

人工智能将重力透镜分析速度提升千万倍

美国国家加速器实验室(SLAC)和斯坦福大学的研究人员表示,脑模拟的“神经网络”可以改变天体物理学家分析其最复杂数据的方式,包括对我们对宇宙理解至关重要的时空极...

36280
来自专栏数据科学与人工智能

【陆勤践行】数据科学家要会多少机器学习

这个全民搞数据的年代越来越多新毕业的博士问我说,怎么样才能成为一个挣钱比较多的数据科学家?这个问题很广泛,因为要会的太多了而技术都在不断进步并且我也不能保证挣钱...

26480
来自专栏大数据文摘

开学了,如何用2017年最后三分之一学会深度学习?

16140
来自专栏量子位

最近有啥ML比赛能表现自己的优秀?CVPR2018图像压缩大赛

原作 Michele Covell Root 编译自 谷歌博客 量子位 出品 | 公众号 QbitAI 新的一年来了,想给自己找个难度大的挑战?有哪些问题是有重...

31670
来自专栏新智元

自然语言处理顶级会议 EMNLP 最佳论文出炉,聚焦神经网络 (下载)

【新智元导读】自然语言处理顶级会议 EMNLP2016 今天公布了本届大会最佳论文。本文介绍会议概况,节选主旨演讲、讲座及Workshop 等亮点介绍,最后给出...

501170
来自专栏新智元

红色预警尚未结束,北京启用机器学习预测空气污染

【新智元导读】今年冬天北京启用雾霾预警系统,将传统的大气化学物理模型与机器学习相结合,力求在更短的时间内做出更精确的预测。12月16日启动的今年首次空气重污染红...

39850
来自专栏机器之心

入门 | 从遗传算法到强化学习,一文介绍五大生物启发式学习算法

570100
来自专栏AI科技大本营的专栏

必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢

作者 | Flavian Hautbois 翻译 | AI科技大本营(rgznai100) 参与 | JeyZhang,波波 上个月,我们发了很多文章。但是,机...

28660

扫码关注云+社区

领取腾讯云代金券