学界 | 自然语言处理领域欧洲顶级会议EACL 2017杰出论文出炉

选自EACL 2017

机器之心编译

参与:微胖,吴攀

自然语言处理领域的欧洲顶级会议 EACL 2017 将于当地时间 4 月 3-7 日在西班牙瓦伦西亚举行,近日,该会议的官网公布了本届会议的 4 篇杰出论文(Outstanding Paper),其中包括 3 篇长论文和 1 篇短论文。机器之心在本文中对这 4 篇论文分别进行了摘要介绍,同时也附带了可查阅论文的相关链接。据官网介绍,对这 4 篇论文的宣讲集中安排在会议的第五天(当地时间 4 月 7 日),更多信息请访问其官网了解:http://eacl2017.org

论文一:循环神经网络语法能学到什么句法?(What Do Recurrent Neural Network Grammars Learn About Syntax?)

链接:https://arxiv.org/abs/1611.05774

摘要:循环神经网络语法(RNNG)是近期提出的一个用于自然语言处理的概率生成模型家族。它们展示了最先进的语言建模以及解析效果。我们从语言学的角度,通过多种对模型和数据的磨蚀(ablation),用一个注意力机制(GA-RNNG)增强模型(以便近一步观察),研究了它们学习的内容。我们发现,想要获得最佳性能表现,关键就是详细地为构成(composition)建模。通过注意力机制,我们发现中心语(headedness)在短语表征中(带有模型潜在注意力机制,该机制与人工中心语规则所做预测大部分一致,尽管也有些重要区别)起关键作用。通过在没有非终结符标签的情况下训练语法,我们发现,短语表征最低程度地取决于非终结符,这为向心性假设(endocentricity hypothesis)提供了支持。

图 1:RNNG 的组成部分:一个堆栈、、生成词汇的缓冲器和导致当前配置的过往动作的列表。每个部分都被嵌入了 LSTM,解析器状态总结 ut(如图)被视为顶层特征,用于根据所有可行动作预测一个 softmax. 上图源于 Dyer et al. (2016)。

图 2:在每个 REDUCE 运行中,RNNG 的结构功能;右边的网络是左边结构的建模 (Dyer et al., 2016)。

论文二(短论文):用于实现主体构形范式的基于字符串的神经图模型(Neural Graphical Models over Strings for Principal Parts Morphological Paradigm Completion)

链接:https://ryancotterell.github.io/papers/cotterell+ala.eacl17.pdf

摘要:世界上很多语言都存在丰富的词素(lexeme)相互影响的形式。处理这类语言的主要任务就是预测这些相互影响的形式。我们提出了一种新的统计模型,该模型利用了图建模技术(graphical modeling techniques)以及深度学习近期取得的一些进展。我们求导了一个 Metropolis-Hastings 算法来一起解码该模型。我们这个贝叶斯网络的灵感来自主体构形分析(principal parts morphological analysis)。我们也证实了,在五种语言中,这一方法确实改善了预测效果。

图 1:两个潜在的图模型,用于实现范式完成。(a)的拓扑结构编码了网络,其中所有的形式都是依据词素预测出来的。(b)是一个以主体构形为灵感的拓扑结构。

论文三:使用 GAP 过渡的增量不连续短语结构解析(Incremental Discontinuous Phrase Structure Parsing with the GAP Transition)

链接:http://www.llf.cnrs.fr/sites/llf.cnrs.fr/files/u485/eacl2017.pdf

摘要:本文介绍了一种用于不连续词法化成分解析(discontinuous lexicalized constituent parsing)的全新的过渡系统(transition system),称为 SR-GAP。这是带有一个额外的 GAP 过渡的移位归约算法(shift-reduce algorithm)的一种扩展。在两个德语树库上的评估表明 SR-GAP 的表现极大地优于之前最佳的基于过渡的不连续解析器(Maier, 2015)(在不连续成分的预测精度上达到了显著的 2 倍),并且可媲美当前最佳(Daniel Fernández-González and André F. T. Martins, 2015)。我们还有一个附带贡献——将跨度特征(span features,Hall et al., 2014)调整应用到了不连续解析上。

图 1:从 Tiger 语料库(移除了标点)中提取出的不连续树

图 2:词法化的二值化树。符号 * 编码了头信息。添加了后缀 : 的符号是由二值化所引入的临时符号。

论文四:用于细粒度实体类型分类的神经架构(Neural Architectures for Fine-grained Entity Type Classification)

链接:https://arxiv.org/abs/1606.01341

摘要:在本研究中,我们调查了几种用于细粒度实体类型分类的神经网络架构,并做出了三个关键贡献。尽管这是一个自然的比较和补充,但之前在注意神经架构(attentive neural architecture)上的研究并没有考虑人工设计的特征,而我们将这种特征和学习到的特征结合到了一起并且确认它们是可以优势互补的。此外,通过定量分析,我们发现这种注意机制学会了关注句法头(syntactic head)和包含该提及(mention)的短语,这两个对我们的任务而言都是已知的强人工特征。我们通过一种分层编码方法引入了在标签之间共享的参数,其在低维投射(low-dimensional projections)中为每种类型层次都表现出了清晰的聚类。最后,尽管使用了同样的评估数据集,但文献经常将使用不同数据训练的模型加以比较。我们的研究表明训练数据的选择会给表现带来极大的影响,之前提出的方法可以有多达 9.85% 的 loose micro F1 分数减少。尽管有这样的差异,但我们最佳的模型在 75.36% 的 loose micro F1 分数上实现了当前最佳的结果,该结果是在成熟的 FIGER (GOLD) 数据集上得到的;而且我们也在 OntoNotes 数据集的公开可用数据上训练的模型上实现了最佳结果,其 loose micro F1 分数为 64.93%。

图 1:在表达「a match series against New Zealand is held on Monday」中预测提及「New Zealand」的细粒度语义类型的注意编码器神经模型(attentive encoder neural model)的图示

©本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习之旅

基于Tensorflow实现FFMFFM理论代码实现论文结论总结

没错,这次登场的是FFM。各大比赛中的“种子”算法,中国台湾大学Yu-Chin Juan荣誉出品,美团技术团队背书,Michael Jahrer的论文的fiel...

1102
来自专栏机器之心

NIPS 2018 | MIT等提出NS-VQA:结合深度学习与符号推理的视觉问答

作者:Kexin Yi、Jiajun Wu、Chuang Gan、Antonio Torralba、Pushmeet Kohli、Joshua B. Tenen...

952
来自专栏ATYUN订阅号

【学术】手把手教你解决90%的自然语言处理问题

无论你是成熟的公司,还是想要推出一个新服务,都可以利用文本数据来验证、改进和扩展产品的功能。科学的从文本数据中提取语义并学习是自然语言处理(NLP)研究的一个课...

3625
来自专栏数据派THU

独家 | 手把手教随机森林

本文是数据派研究部“集成学习月”的第三篇文章,本月将陆续发布关于集中学习的话题内容,月末将有答题互动活动来赢奖,欢迎随时留言讨论相关话题。 随机森林-概述 当变...

2648
来自专栏新智元

国科大本科生连续在CVPR,AAAI发文,系统提出三维模型库变形分析方法

1763
来自专栏新智元

算力节省240倍!上交大、MIT新方法低成本达到谷歌AutoML性能

【新智元导读】利用机器学习技术代替人类专家来自动设计神经网络架构近期成为了一个热门研究话题。上海交大和MIT的研究团队提出一种新的高效神经架构搜索方法,解决了当...

1162
来自专栏机器之心

详解蒙特卡洛方法:这些数学你搞懂了吗?

之前我们讨论过马尔可夫决策过程(MDP,参阅 https://goo.gl/wVotRL)以及寻找最优的动作-价值函数

1080
来自专栏媒矿工厂

HDR关键技术:光学、视觉与光电转换曲线

本系列的前作当中介绍了HDR技术的相关技术与标准,本文将从更基础的知识点出发,重点介绍HDR技术的两大关键基础-亮度与颜色中的前者。

1.2K3
来自专栏人工智能头条

AI为超级马里奥兄弟创造了游戏新级别——GECCO 2018最佳论文提名

作者 | Vanessa Volz、Jacob Schrum、Jialin Liu、 Simon M. Lucas、Adam Smith、Sebastian R...

801
来自专栏机器学习算法工程师

【干货教程】自然语言处理入门:手把手教你解决90%的NLP问题

作者:孟廉 编辑:田旭 前 言 文章来自:https://blog.insightdatascience.com 作者:Emmanuel Ameisen 无...

9517

扫码关注云+社区

领取腾讯云代金券