前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授获终身成就奖

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授获终身成就奖

作者头像
新智元
发布2018-03-22 17:48:24
8250
发布2018-03-22 17:48:24
举报
文章被收录于专栏:新智元新智元

【新智元导读】计算语言学顶会 ACL 2017 刚刚公布了最佳论文和终身成就奖。本年度最佳长论文被授予了霍普金斯大学使用概率方法研究语言类型学的文章。最佳短论文则是法国和日本研究人员探讨韵律和语域对词语切分影响的工作。最佳资源论文得主是康奈尔大学和 Facebook 合作的用于视觉推理的自然语言语料库。南加州大学交互式诗词生成系统获得了最佳演示论文奖。新智元以前曾经报道过的 OpenNMT 获得了最佳演示论文提名。

会议同时公布了“终身成就奖”——哈佛大学的 Barbara J. Grosz 教授,她在自然语言处理、多智能体系统等领域做出了开创性的贡献。

最佳长论文:概率类型学:元音库深度生成模型

摘要

语言类型学(Linguistic typology)研究的是人类语言中存在的结构范围。该领域的主要目标是发现哪些可能的现象是普遍存在的,而哪些只是频繁而已。例如,所有的语言都有元音,而大多数语言(而不是全部)都有 [u] 的发音。在本文中,我们针对语音类型学中基本的一个问题——什么才算一个自然的元音库?——给出了首个概率性的处理。我们介绍一系列深度随机点过程(deep stochastic point processes),并将其与以前的计算方法和基于模拟的方法进行对比。我们提供了一整套超过 200 种不同语言的实验。

总结

为了分析语音类型学研究的数学基础,我们提出了一系列点过程模型(point process models),用于元音系统库(vowel system inventory)类型学的建模。所有的模型都另外被深度参数化(deep parameterization)来学习与认知科学中知觉空间相似的表示(representation)。此外,我们认为在语言类型学中,我们以前提出的概率建模比计算建模更好,我们认为概率建模是一种更自然的研究范式。此外,我们引入了几个新颖的元音系统研究评估指标,希望这能引发对这一领域更多的兴趣。这些指标的性能经过了 Becker-Kristal 语料库的实证验证,其中包括来自 200 多种语言的数据。

最佳短论文:从计算建模的角度看韵律和语域在词语切分中的作用

摘要

本研究探讨了词语切分任务中语域(speech register)和韵律的作用。由于这两个因素被认为在早期语言习得中具有重要的作用,我们的目标是量化这两者对词语切分任务的贡献。我们研究了一个同时含有婴儿和成人导向言语(infant- and adult-directed speech)的日语语料库,并且在上面应用了 4 种不同的词语切分模型,有拥有韵律边界(prosodic boundaries)知识的,也有不含韵律边界知识的。结果表明,语域(register)之间的差异比以前文献报道过的要小,相比婴儿导向言语,韵律边界信息对成人导向的言语更有帮助。

结论

我们检查了在两种匹配的自发 ADS 和 IDS 语料库,以及一个更正式的 ADS 控制语料库上 4 种不同的词语切分算法的性能,它们都具有和不具有韵律上的停顿(prosodic break)。我们发现,总体而言,sub-lexical 算法的效果不如词法算法(lexical algorithms),IDS 整体上略微简单或者等同于非正式的 ADS,本身比 ADS 简单。此外,在所有算法和语域中,我们观察到韵律有助于进行词语切分。

然而,韵律的影响是不平等的,并且与语域相互作用:韵律对 ADS 的帮助比对 IDS 的更多,当韵律被纳入考虑时,自发的 ADS 和 IDS 产生了类似的得分。

这对语言习得理论有影响,因为 IDS 被认为是为婴儿提供“超级言语” (hyperspeech),也即简化的语言习得的输入。如果我们的观察结果是真实的,就词语切分而言,IDS 比 ADS 更容易切分,至少在婴儿已经获得使用韵律停顿的能力来控制(constrain)词语切分的阶段。当然,我们的观察需要用其他语言和记录过程(recording procedure)来确认和复制(replicate)。

总而言之,我们的研究表明了使用量化工具测试语言习得理论的作用。

最佳资源论文:一个用于视觉推理的自然语言语料库

摘要

我们提出了一个新的用于视觉推理的语言数据集,包含92244对对应自然语句的合成图像样本,3962个不同句子。我们描述了众包语言多样性数据的方法,并提供对数据的分析。这些数据包含了视觉和集合推理所需的广泛语言现象。我们用多种模型对数据进行了实验,并提出这些数据可以作为未来研究的强有力挑战。

图:我们的语料库中的句子和图像样本。每个图像包含三个不同类型的物体。上方的句子是真值,下方的是假值。

最佳演示论文:Hafez:一个交互式诗歌生成系统

摘要

Hafez 是一个能够自动生成诗歌的系统,该系统结合了递归神经网络(RNN)和有限状态接受器(FSA)。它能够根据给定的任意主题生成十四行诗。此外,Hafez 允许用户通过调整各种风格设置来修改和润色生成的诗歌。实验证明,这样的“润色”机制考虑了用户的意图,能够产生更好的诗歌。在评估部分,我们构建了一个网络界面,用户可以用1到5颗星为每首诗歌的质量进行评分。利用词汇剪枝(vocabulary pruning)和GPU计算,我们将整个系统加快了10倍,从而能够快速收集足够的反馈。基于这些反馈,系统学习并调整其参数来提高生成诗歌的质量。

图1:Hafez 的整体架构

图2:(a)默认设置生成的诗歌;(b)用户调整风格设置生成的诗歌

最佳演示论文提名:OpenNMT:神经机器翻译开源工具包

摘要

本论文中,我们描述了神经机器翻译(NMT)的一个开源工具包,该工具包是效率优先、模块化而且可扩展,目的是支持NMT的模型结构、特征表示、和源模式研究,同时保持具有竞争力的性能和合理的训练要求。该工具包包括建模和翻译支持,以及有关底层技术的详细教学文档。

图:神经机器翻译的示意图。红色框的源词先被映射到词向量,然后馈入一个递归神经网络(RNN)。当看到<eos>符号时,最后一个时间步长初始化一个目标RNN(蓝色)。在每个目标时间步长,attention被应用于源RNN,并与当前隐藏的状态结合,产生下一个词的预测。这个预测接着被馈入目标RNN。

终身成就奖:人工智能协同规划与人机交互

会上还同时公布了“终身成就奖”(Lifetime Achivement Award)——哈佛大学的 Barbara J. Grosz 教授上台领奖并发表了获奖感言。

Barbara J. Grosz 教授发表获奖感言

计算机科学的一个主要挑战是为易于使用、大规模的信息系统创建其科学和技术基础。人工智能研究的目的是理解使计算机系统的构造能够智能地行动的方式,并构建这样的系统。Grosz 教授的研究关注这两大议题,旨在开发计算机智能系统在长期、不确定、动态的环境中发挥作用所需的能力。Grosz教授的研究项目已经提出构建能够相互合作或与用户一起工作的系统的协同理论和模型。对于构建有用的助理,而不仅仅是工具,协同的能力是至关重要的。更好的人机交互,包括适当地处理中断,是这一挑战的重要部分。

Grosz 教授在自然语言处理、多智能体系统等领域做出了开创性的贡献。她开发了最早的一些人机对话系统,确立了语篇计算建模的研究领域。她在协同模型方面的工作帮助确立了这一研究领域,并提出了几个协同多智能体和人机交互界面的框架。目前,Grosz 教授的研究重点是探讨协同多智能体系统和协同界面改善医患交流的方式。

Grosz 是美国国家工程学院院士,美国哲学学会、爱丁堡皇家学会、美国艺术与科学学院的成员,以及美国人工智能协会(AAAI)、美国计算机协会和美国科学促进协会的会士。Grosz 由于在“自然语言处理研究和多智能体系统的基础性贡献,在人工智能领域的领导作用,以及建设和领导跨学科机构的领导作用”,在2009年获得ACM/ AAAI Allen Newell Award。2015年,她被授予 IJCAI 终身成就奖,以表彰她在“自然语言处理和多智能体系统的理论和应用的开拓性研究”。

Grosz 在跨学科机构方面的领导作用也很杰出,并由于促进女性在科学领域地位的贡献受到广泛尊重。从2007- 2011年,Grosz 教授担任哈佛大学拉德克利夫高等研究院临时院长和院长。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-08-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档