学界 | 自然语言处理领域欧洲顶级会议EACL 2017杰出论文出炉

机器之心

发布于 2018-05-07 12:07:06

6290

发布于 2018-05-07 12:07:06

文章被收录于专栏：机器之心

选自EACL 2017

机器之心编译

参与：微胖，吴攀

自然语言处理领域的欧洲顶级会议 EACL 2017 将于当地时间 4 月 3-7 日在西班牙瓦伦西亚举行，近日，该会议的官网公布了本届会议的 4 篇杰出论文（Outstanding Paper），其中包括 3 篇长论文和 1 篇短论文。机器之心在本文中对这 4 篇论文分别进行了摘要介绍，同时也附带了可查阅论文的相关链接。据官网介绍，对这 4 篇论文的宣讲集中安排在会议的第五天（当地时间 4 月 7 日），更多信息请访问其官网了解：http://eacl2017.org

论文一：循环神经网络语法能学到什么句法？（What Do Recurrent Neural Network Grammars Learn About Syntax?）

链接：https://arxiv.org/abs/1611.05774

摘要：循环神经网络语法（RNNG）是近期提出的一个用于自然语言处理的概率生成模型家族。它们展示了最先进的语言建模以及解析效果。我们从语言学的角度，通过多种对模型和数据的磨蚀（ablation），用一个注意力机制（GA-RNNG）增强模型（以便近一步观察），研究了它们学习的内容。我们发现，想要获得最佳性能表现，关键就是详细地为构成（composition）建模。通过注意力机制，我们发现中心语（headedness）在短语表征中（带有模型潜在注意力机制，该机制与人工中心语规则所做预测大部分一致，尽管也有些重要区别）起关键作用。通过在没有非终结符标签的情况下训练语法，我们发现，短语表征最低程度地取决于非终结符，这为向心性假设（endocentricity hypothesis）提供了支持。

图 1：RNNG 的组成部分：一个堆栈、、生成词汇的缓冲器和导致当前配置的过往动作的列表。每个部分都被嵌入了 LSTM，解析器状态总结 ut（如图）被视为顶层特征，用于根据所有可行动作预测一个 softmax. 上图源于 Dyer et al. (2016)。

图 2：在每个 REDUCE 运行中，RNNG 的结构功能；右边的网络是左边结构的建模 (Dyer et al., 2016)。

论文二（短论文）：用于实现主体构形范式的基于字符串的神经图模型（Neural Graphical Models over Strings for Principal Parts Morphological Paradigm Completion）

链接：https://ryancotterell.github.io/papers/cotterell+ala.eacl17.pdf

摘要：世界上很多语言都存在丰富的词素（lexeme）相互影响的形式。处理这类语言的主要任务就是预测这些相互影响的形式。我们提出了一种新的统计模型，该模型利用了图建模技术（graphical modeling techniques）以及深度学习近期取得的一些进展。我们求导了一个 Metropolis-Hastings 算法来一起解码该模型。我们这个贝叶斯网络的灵感来自主体构形分析（principal parts morphological analysis）。我们也证实了，在五种语言中，这一方法确实改善了预测效果。

图 1：两个潜在的图模型，用于实现范式完成。（a）的拓扑结构编码了网络，其中所有的形式都是依据词素预测出来的。（b）是一个以主体构形为灵感的拓扑结构。

论文三：使用 GAP 过渡的增量不连续短语结构解析（Incremental Discontinuous Phrase Structure Parsing with the GAP Transition）

链接：http://www.llf.cnrs.fr/sites/llf.cnrs.fr/files/u485/eacl2017.pdf

摘要：本文介绍了一种用于不连续词法化成分解析（discontinuous lexicalized constituent parsing）的全新的过渡系统（transition system），称为 SR-GAP。这是带有一个额外的 GAP 过渡的移位归约算法（shift-reduce algorithm）的一种扩展。在两个德语树库上的评估表明 SR-GAP 的表现极大地优于之前最佳的基于过渡的不连续解析器（Maier, 2015）（在不连续成分的预测精度上达到了显著的 2 倍），并且可媲美当前最佳（Daniel Fernández-González and André F. T. Martins, 2015）。我们还有一个附带贡献——将跨度特征（span features，Hall et al., 2014）调整应用到了不连续解析上。

图 1：从 Tiger 语料库（移除了标点）中提取出的不连续树

图 2：词法化的二值化树。符号 * 编码了头信息。添加了后缀 : 的符号是由二值化所引入的临时符号。

论文四：用于细粒度实体类型分类的神经架构（Neural Architectures for Fine-grained Entity Type Classification）

链接：https://arxiv.org/abs/1606.01341

摘要：在本研究中，我们调查了几种用于细粒度实体类型分类的神经网络架构，并做出了三个关键贡献。尽管这是一个自然的比较和补充，但之前在注意神经架构（attentive neural architecture）上的研究并没有考虑人工设计的特征，而我们将这种特征和学习到的特征结合到了一起并且确认它们是可以优势互补的。此外，通过定量分析，我们发现这种注意机制学会了关注句法头（syntactic head）和包含该提及（mention）的短语，这两个对我们的任务而言都是已知的强人工特征。我们通过一种分层编码方法引入了在标签之间共享的参数，其在低维投射（low-dimensional projections）中为每种类型层次都表现出了清晰的聚类。最后，尽管使用了同样的评估数据集，但文献经常将使用不同数据训练的模型加以比较。我们的研究表明训练数据的选择会给表现带来极大的影响，之前提出的方法可以有多达 9.85% 的 loose micro F1 分数减少。尽管有这样的差异，但我们最佳的模型在 75.36% 的 loose micro F1 分数上实现了当前最佳的结果，该结果是在成熟的 FIGER (GOLD) 数据集上得到的；而且我们也在 OntoNotes 数据集的公开可用数据上训练的模型上实现了最佳结果，其 loose micro F1 分数为 64.93%。