【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授获终身成就奖

【新智元导读】计算语言学顶会 ACL 2017 刚刚公布了最佳论文和终身成就奖。本年度最佳长论文被授予了霍普金斯大学使用概率方法研究语言类型学的文章。最佳短论文则是法国和日本研究人员探讨韵律和语域对词语切分影响的工作。最佳资源论文得主是康奈尔大学和 Facebook 合作的用于视觉推理的自然语言语料库。南加州大学交互式诗词生成系统获得了最佳演示论文奖。新智元以前曾经报道过的 OpenNMT 获得了最佳演示论文提名。

会议同时公布了“终身成就奖”——哈佛大学的 Barbara J. Grosz 教授,她在自然语言处理、多智能体系统等领域做出了开创性的贡献。

最佳长论文:概率类型学:元音库深度生成模型

摘要

语言类型学(Linguistic typology)研究的是人类语言中存在的结构范围。该领域的主要目标是发现哪些可能的现象是普遍存在的,而哪些只是频繁而已。例如,所有的语言都有元音,而大多数语言(而不是全部)都有 [u] 的发音。在本文中,我们针对语音类型学中基本的一个问题——什么才算一个自然的元音库?——给出了首个概率性的处理。我们介绍一系列深度随机点过程(deep stochastic point processes),并将其与以前的计算方法和基于模拟的方法进行对比。我们提供了一整套超过 200 种不同语言的实验。

总结

为了分析语音类型学研究的数学基础,我们提出了一系列点过程模型(point process models),用于元音系统库(vowel system inventory)类型学的建模。所有的模型都另外被深度参数化(deep parameterization)来学习与认知科学中知觉空间相似的表示(representation)。此外,我们认为在语言类型学中,我们以前提出的概率建模比计算建模更好,我们认为概率建模是一种更自然的研究范式。此外,我们引入了几个新颖的元音系统研究评估指标,希望这能引发对这一领域更多的兴趣。这些指标的性能经过了 Becker-Kristal 语料库的实证验证,其中包括来自 200 多种语言的数据。

最佳短论文:从计算建模的角度看韵律和语域在词语切分中的作用

摘要

本研究探讨了词语切分任务中语域(speech register)和韵律的作用。由于这两个因素被认为在早期语言习得中具有重要的作用,我们的目标是量化这两者对词语切分任务的贡献。我们研究了一个同时含有婴儿和成人导向言语(infant- and adult-directed speech)的日语语料库,并且在上面应用了 4 种不同的词语切分模型,有拥有韵律边界(prosodic boundaries)知识的,也有不含韵律边界知识的。结果表明,语域(register)之间的差异比以前文献报道过的要小,相比婴儿导向言语,韵律边界信息对成人导向的言语更有帮助。

结论

我们检查了在两种匹配的自发 ADS 和 IDS 语料库,以及一个更正式的 ADS 控制语料库上 4 种不同的词语切分算法的性能,它们都具有和不具有韵律上的停顿(prosodic break)。我们发现,总体而言,sub-lexical 算法的效果不如词法算法(lexical algorithms),IDS 整体上略微简单或者等同于非正式的 ADS,本身比 ADS 简单。此外,在所有算法和语域中,我们观察到韵律有助于进行词语切分。

然而,韵律的影响是不平等的,并且与语域相互作用:韵律对 ADS 的帮助比对 IDS 的更多,当韵律被纳入考虑时,自发的 ADS 和 IDS 产生了类似的得分。

这对语言习得理论有影响,因为 IDS 被认为是为婴儿提供“超级言语” (hyperspeech),也即简化的语言习得的输入。如果我们的观察结果是真实的,就词语切分而言,IDS 比 ADS 更容易切分,至少在婴儿已经获得使用韵律停顿的能力来控制(constrain)词语切分的阶段。当然,我们的观察需要用其他语言和记录过程(recording procedure)来确认和复制(replicate)。

总而言之,我们的研究表明了使用量化工具测试语言习得理论的作用。

最佳资源论文:一个用于视觉推理的自然语言语料库

摘要

我们提出了一个新的用于视觉推理的语言数据集,包含92244对对应自然语句的合成图像样本,3962个不同句子。我们描述了众包语言多样性数据的方法,并提供对数据的分析。这些数据包含了视觉和集合推理所需的广泛语言现象。我们用多种模型对数据进行了实验,并提出这些数据可以作为未来研究的强有力挑战。

图:我们的语料库中的句子和图像样本。每个图像包含三个不同类型的物体。上方的句子是真值,下方的是假值。

最佳演示论文:Hafez:一个交互式诗歌生成系统

摘要

Hafez 是一个能够自动生成诗歌的系统,该系统结合了递归神经网络(RNN)和有限状态接受器(FSA)。它能够根据给定的任意主题生成十四行诗。此外,Hafez 允许用户通过调整各种风格设置来修改和润色生成的诗歌。实验证明,这样的“润色”机制考虑了用户的意图,能够产生更好的诗歌。在评估部分,我们构建了一个网络界面,用户可以用1到5颗星为每首诗歌的质量进行评分。利用词汇剪枝(vocabulary pruning)和GPU计算,我们将整个系统加快了10倍,从而能够快速收集足够的反馈。基于这些反馈,系统学习并调整其参数来提高生成诗歌的质量。

图1:Hafez 的整体架构

图2:(a)默认设置生成的诗歌;(b)用户调整风格设置生成的诗歌

最佳演示论文提名:OpenNMT:神经机器翻译开源工具包

摘要

本论文中,我们描述了神经机器翻译(NMT)的一个开源工具包,该工具包是效率优先、模块化而且可扩展,目的是支持NMT的模型结构、特征表示、和源模式研究,同时保持具有竞争力的性能和合理的训练要求。该工具包包括建模和翻译支持,以及有关底层技术的详细教学文档。

图:神经机器翻译的示意图。红色框的源词先被映射到词向量,然后馈入一个递归神经网络(RNN)。当看到<eos>符号时,最后一个时间步长初始化一个目标RNN(蓝色)。在每个目标时间步长,attention被应用于源RNN,并与当前隐藏的状态结合,产生下一个词的预测。这个预测接着被馈入目标RNN。

终身成就奖:人工智能协同规划与人机交互

会上还同时公布了“终身成就奖”(Lifetime Achivement Award)——哈佛大学的 Barbara J. Grosz 教授上台领奖并发表了获奖感言。

Barbara J. Grosz 教授发表获奖感言

计算机科学的一个主要挑战是为易于使用、大规模的信息系统创建其科学和技术基础。人工智能研究的目的是理解使计算机系统的构造能够智能地行动的方式,并构建这样的系统。Grosz 教授的研究关注这两大议题,旨在开发计算机智能系统在长期、不确定、动态的环境中发挥作用所需的能力。Grosz教授的研究项目已经提出构建能够相互合作或与用户一起工作的系统的协同理论和模型。对于构建有用的助理,而不仅仅是工具,协同的能力是至关重要的。更好的人机交互,包括适当地处理中断,是这一挑战的重要部分。

Grosz 教授在自然语言处理、多智能体系统等领域做出了开创性的贡献。她开发了最早的一些人机对话系统,确立了语篇计算建模的研究领域。她在协同模型方面的工作帮助确立了这一研究领域,并提出了几个协同多智能体和人机交互界面的框架。目前,Grosz 教授的研究重点是探讨协同多智能体系统和协同界面改善医患交流的方式。

Grosz 是美国国家工程学院院士,美国哲学学会、爱丁堡皇家学会、美国艺术与科学学院的成员,以及美国人工智能协会(AAAI)、美国计算机协会和美国科学促进协会的会士。Grosz 由于在“自然语言处理研究和多智能体系统的基础性贡献,在人工智能领域的领导作用,以及建设和领导跨学科机构的领导作用”,在2009年获得ACM/ AAAI Allen Newell Award。2015年,她被授予 IJCAI 终身成就奖,以表彰她在“自然语言处理和多智能体系统的理论和应用的开拓性研究”。

Grosz 在跨学科机构方面的领导作用也很杰出,并由于促进女性在科学领域地位的贡献受到广泛尊重。从2007- 2011年,Grosz 教授担任哈佛大学拉德克利夫高等研究院临时院长和院长。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-08-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

四个月速成全栈机器学习?这位黑人小哥三个半月就开始找工作了

程序员转型AI、机器学习需要学多久?1年?3年?这是绝大多数考虑转型的人,从一开始就要认真思考的问题。 光说不练在这里没用,咱们还是要看真实的故事,来看看黑...

37980
来自专栏机器之心

入门 | 从遗传算法到强化学习,一文介绍五大生物启发式学习算法

545100
来自专栏AI科技评论

犹他大学计算机系终身教授承恒达:人工智能中不确定性的研究 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了...

11710
来自专栏AI研习社

如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法?

不抖机灵,想从接触过机器学习学术圈但已投身工业界的角度来回答。 我认为:大部分机器学习从业者不需要过度的把时间精力放在数学上,而该用于熟悉不同算法的应用场景和掌...

385100
来自专栏数据派THU

清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲...

47530
来自专栏新智元

【重磅】吴恩达率百度大脑完胜“最强大脑”王峰,AI技术解密

【新智元导读】人工智能又一次战胜了人类!这次是在《最强大脑》。吴恩达率队的百度人工智能在人脸识别跨年龄识别任务中以 3:2 的比分惊险击败《最强大脑》名人堂轮值...

39360
来自专栏新智元

【机器学习圈子里的裙带关系】学术“朋友圈”罪与罚

来源:Reddit 作者:闻菲 【新智元导读】或许你以为搞学术做研究可以不受世俗干扰,殊不知有人在的地方就有江湖。在学术圈,跟对人或许跟做好事情一样重要...

32270
来自专栏PPV课数据科学社区

黑箱难题仍在阻碍深度学习的普及

? “机器学习基本就是线性数学,很好解释,”数据公司Teradata首席技术官斯蒂芬·布罗布斯特(Stephen Brobst)在Teradata合作伙伴大...

38740
来自专栏新智元

【Nature 封面论文】随机人工智能群体控制,提高人类协作效率

【新智元导读】噪音,或过程中无意义的信息通常被视为导致麻烦的原因。但最新研究发现,将制造噪音(也即故意做出不协调行为或“捣乱”)的 bot 或 AI 程序放置在...

38580
来自专栏PPV课数据科学社区

数据挖掘与生活:算法分类和应用

“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手...

52340

扫码关注云+社区

领取腾讯云代金券