ACL2017:海德堡理论研究中心:指代消解的词汇特征-谨慎使用

你和“懂AI”之间,只差了一篇论文

很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。

读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第16篇论文

ACL 2017 Short Papers

指代消解的词汇特征:谨慎使用

Lexical Features in Coreference Resolution: To be Used With Caution

海德堡理论研究中心

Heidelberg Institute for Theoretical Studies

【摘要】词汇特征是当前主流指代消解方法的主要信息来源。词汇特征在细粒度上含蓄地模拟了一些语言现象。它们对于表示下文信息非常有用。本文调查了当前的指代消解方法中大量使用词汇特征的缺点,并指出,如果指代消解方法过度依赖于词汇特征,那这些方法将很难被推广到其他领域。此外,我们还指出,目前的指代消解评估方法显然是有缺陷的,它只对特定数据集的具体分割进行评估,其中训练、开发和测试集之间存在显著的重叠。

1 引言

与其他任务类似,词汇特征是当前指代消解方法的主要信息来源。指代消解方法是一个集合划分问题,其中每个产生的分区都指向一个实体。正如Durrett and Klein (2013)所示,词汇特征揭示了一些语言现象,这些现象以前都是由启发式特征建模捕捉的,但是在一个更精细的粒度水平上。然而,我们怀疑的是,由大量词汇特征所捕获的知识是否可以被推广到其他领域。

CoNLL(自然语言学习会议)数据集的引入使指代消解方法的性能显著提高,在目前最好的指代消解方法、Clark and Manning(2016b)的deep-coref方法与2011年CoNLL共享任务的赢家——Lee et al. (2013) 的基于规则的Stanford方法之间有10%的差异。然而,这种改进在接下来的任务中似乎并不明显。更糟糕的是,当应用于一个新的数据集时,最先进的指代消解方法和基于规则的系统的差异显著下降。即使对于所提到和关联的定义是一致的时候(Ghaddar and Langlais, 2016a)。

在本文中,我们指出,如果像最先进的指代消解方法一样主要依靠词汇特征,就会加重过度拟合。训练数据集的过度拟合是一个无法完全避免的问题。然而,在CoNLL训练、开发和测试集之间有一个明显的重叠,这显著增加了过度拟合发生的可能性。因此,目前评价方案是存在缺陷的,因为其仅在这些重叠的验证集上进行评估。为了确保有效地改进,我们认为在共指文献中必须有一个领域之外的评价。

2 词汇特征

使用词汇特征和不使用词汇特征的相关指代消解方法之间的性能差异很大,这显示了词汇特征的重要性。Durrett和Klein(2013)表明了词汇特征隐含地捕捉了一些现象,例如确定性和句法角色,这些现象都是由启发式特征建模的。Durrett and Klein(2013)使用词语的精确表面形态作为词汇特征。然而,当使用词向量而不是词语表面组成形态的时候,词汇特征的使用更有益。词向量是获取语义关联的有效方法。特别地,它们为描述所提到的内容提供了一种有效的方法。Durrett and Klein(2013)表明,在词汇特征上加一些启发式特征,例如性别、数量、人称和句法角色,但并没有实现结果的显著提高。

Deep-coref,最先进的指代消解方法也遵循同样的方式。Clark and Manning(2016b)利用大量的词汇特征和一系列的非词汇特征,包括字符串匹配、间距、类型、说话者和类型特征,捕捉需要的信息来解决相关问题,主要的区别在于Clark和Manning(2016b)使用的是词向量而不是Durrett和Klein(2013)使用的表面特征。

基于cort(Martschat和Strube,2014)的误差分析,与不使用词向量的系统相比,deep-coref会产生更小的召回率和精度错误,尤其是对代词。例如,deep-coref正确地识别了CoNLL开发集合中83%的“it”指代。这可能是由于词向量的一个更好的上下文表示方法。

3 其他领域上的评价

除了词汇特征取得的明显成功之外,还可以讨论的是,训练数据词汇特征捕捉到的知识如何被推广到其他领域。正如Ghaddar and Langlais(2016b)所报道的,在CoNLL数据集上训练的最先进的指代消解方法表现欠佳。在新数据集WikiCoref(Ghaddar和Langlais,2016b)中,即使WikCoref被标注为像CoNLL数据集一样的标注,也比基于规则的系统(Lee等,2013)更糟糕。在这个数据集上,最近一些指代消解方法的结果被列在表1中。

结果展示了使用MUC(Vilain等,1995)、B3(Bagga和Baldwin,1998)、CEAFe(Luo,2005)三种方法的实验结果,以及三种方法的平均F1得分,即CoNLL评分和LEA(Moosavi和Strube,2016)。

表1 CoNLL测试集和WikiCoref的比较结果

berkeley是Durrett和Klein(2013)的一个包含FINAL特征集合的指代排序模型,包括中心词、第一个、最后一个、前后词、祖先、长度、词性和次数间距、回指词和先行词是否是嵌套的、同样的说话者和一个小的字符串匹配特征集合。

cort是Marscha和Strube(2015)的指代排序模型。cort使用以下的特征集:中心词、第一个、最后一个、前后词、祖先、长度、词性、数量、类型、语义类别、依赖关系和依赖词、中心词的命名实体类型、两个词出现的距离、相同的说话者、回指词和先行词是否是嵌套的,和一组字符串匹配特征。表1中的berkeley和cort分数来自Ghaddar和Langlais(2016a)。

deep-coref是Clark和Manning(2016b)的指代排序模型。Deep-coref包含了一大批的词向量,即:中心词、第一个、最后一个、前/后两个词、以及一个依赖词、除此之外前/后五个单词的平均词向量,所有提及的单词,句子的单词和文档的单词。Deep-coref还包含了提及的类型、长度和位置,无论提及的内容是否嵌套在其他的提及里,包括两个提及的距离,说话者的特征和一组小的字符串匹配特征。

对于deep-coref [conll],CoNLL的平均评分用于选择开发集中最好的训练模型。deep-coref [lea]使用LEA评分方式(Moosavi和Strube,2016)来选择最佳模型。值得注意的是,在不同的实验中,deep-coref排序模型的结果可能稍有不同。然而,deep-coref [lea]的性能总是比deep-coref [conll]高。

我们将WikiCoref的单词添加到deep-coref字典中,用于deep-coref [conll]和deep-coref [lea]。Deep-coref报道了WikiCoref词汇没有被嵌入词典的deep-coref [lea]性能。因此,对于deep-coref,在CoNLL中WikiCoref的不存在的单词将被随机初始化,而不是使用预先训练的word2vec词向量。deep-coref [lea]与deep-coref相比,使用预先训练的词向量比普通词向量的性能更好。自此以后,我们用deep-coref指代deep-coref [lea]。

4 为什么改进会逐渐消失?

在这一节中,我们研究了词汇特征对指代消解中不适用于新领域的情况有多大改善。

表2展现了在CoNLL测试集与训练数据中作为复指同时出现的非复指代词的出现比率。这些高比率表明在CoNLL数据集之间有很高的重合度。

训练和测试集之间最大的重叠是类型pt(Bible)。“tc”(电话谈话)类型在非人称代词中的重叠度比较低。然而,这种类型包括大量的代词。我们选择了wb(weblog)和pt两种有低程度重叠和高程度重叠的类型做分析。

表2 在训练集中被认为是指代的非复指代词,在训练数据中提到的比率

表3展示了在两种设置下经检验的指代消解方法的结果,当测试集只包含一个类型,即pt或wb:(1)训练集包括所有类型(域内评估)和(2)测试集的相应类型被排除在训练和开发集之外(域外评估)。

表3 高和低重叠体裁的域内评估和域外评估

berkeley-final是Durrett和Klein(2013)的指代消解方法,FINAL的特征集解释在第3部分。berkeley- surface是相同的指代消解方法,只有表面特征,即祖先、性别、数字、相同的扬声器和嵌套的功能被排除在FINAL的特性集之外。

cort-lexical是cort一个版本,没有使用词汇特征,即中心词、第一个词、最后一个词,提及该词的前后句被排除在外。

对于域内评估,我们通过100次迭代训练deep-coref排序模型,即Clark and Manning (2016a)的设置。但是,基于开发集的性能,我们在域外评估中只训练了50个迭代模型。

pt类型的结果表明,在训练和测试数据集之间存在高度重叠的情况下,所有基于学习型的分类器的性能都显著提高。在训练数据中,deep-coref收益最大,LEA分数超过了13%。cort同时使用了词汇和相对大量的非词汇特征,而berkeley - surface是一个纯粹的词汇化系统。然而,当pt被包含或排除在训练数据时,berkeley-surface的性能差异低于cort。berkeley使用特征值进行剪枝,从训练数据中删除出现次数少于20次的词汇特征。也许,这就是为什么berkeley的性能差异在高度重叠的数据集里比其他词汇化系统要少。

对于较少重叠的类型,即wb,在所有词汇化系统中,包含训练数据类型在内的性能增益明显降低。有趣的是,当这个类型被排除在训练集外的时候berkeley-final,cort和cort-lexical的性能提高了。deep-coref使用复杂的深度神经网络和主要的词汇特征,在训练和测试数据集上的冗余中获得了最高的增益。当我们使用更复杂的神经网络时,训练数据集的强力记忆能力更强。

同样值得注意的是,在域外评估中,性能的提升和下降并不完全因为词汇特征,cort-lexical的性能在pt域外评估性能也是显著下降的。分类器还可以记忆训练数据中的其他属性。然而,与类型和数字一致性或句法角色等特征相比,词汇特征对过拟合问题具有最高的可能性。

我们进一步分析了deep-coref在开发环境下的输出。表4中所有行显示了在不同类型的开发集中有deep-coref创建的成对链接的数量。seen行显示了在训练集中seen的每一类关系的比率(先行词和回指词)。所有的比率都高的惊人,最让人担心的是那些被提及的既是一个合适的名字又是一个普通的名词。

根据它们是否是正确的指代关系,表5进一步划分表4的关系。表5的结果显示,在训练数据中所看到的内容中,大多数不正确的关系也是由这些提及组成的。

这样的高比率表明,(1)在提及的训练对和开发集中有高度的重叠。并且(2)尽管deep-coref使用了广义词向量而不是精确的表面形态,但针对看到的内容,结果强烈的偏移了。

表4:训练数据中由deep-coref创造的head-pair关系比率

表5:训练数据中由deep-coref创造的head-pair关系比率

我们分析了由Stanford基于规则的系统创建的关系,并计算了在训练集中存在的关系的比例。在表5中所有对应的比率低于deep-coref。然而,对于一个不使用训练数据的系统来说,这个比率惊人的高。这一分析强调了CoNLL数据集的重叠。由于这种高度重叠,所以很难评估一个指代消解方法的普适性。鱿鱼这种高重叠性,对于未知的提及,在给定其官方拆分的情况下,在CoNLL数据集上很难评估其普适性。

我们同样还计算了表5 deep-coref与错误召回相关的缺失关系的比率。我们通过cort错误分析工具(Martschat and Strube,2014)来计算召回的错误。表6显示了召回错误的相应比率。与表4相比,表6的较低比率强调了deep-coref对所见提及的偏倚。

表6:训练数据中存在的head-pair关系的deep-coref的召回误差的比率。

例如,deep-coref关系包括31个案例,其中两次提到的都是专有名词和普通名词,其中一个提到的中心词是“国家”。对所有这些关系,“国家”与在训练数据中看到的一种提及有关。因此,这就提出了一个问题,分类器将如何处理在训练数据中没有提到的国家的文本。

记住他们其中的一对是一个普通名词,可以帮助分类器在一定程度上捕捉世界知识。从“海地”和“广州”这样的观察组,分类器可以得知“海地”是一个国家,“广州”是一个城市。然而,如果主要基于训练数据,那么单词知识的有用性程度是可疑的。两个没有头匹配的名词性名词短语的相关关系很难解决。这种配对的分辨率被称为捕捉语义相似度(Clarking和Manning,2016b)。deep-coref关系在开发集上有49个这样的组合。在所有这些关系中,只有5对在训练集上看不见,所有的关系都是错误的。此外,Levy等人(2015)也对词汇特征的影响进行了分析,如上下位关系和限定继承。他们展示了最先进的分类器能记住训练数据中的单词。分类器在训练和测试集之间有一些常见的单词时,可以从这种词汇记忆中受益。

5 论述

我们展示了指代消解方法中词法特征偏差的广泛应用。这种误差阻止我们开发更强壮、更普适化的指代消解方法。毕竟,尽管指代消解是文本理解的重要一步,但它并不是一个最终任务。指代消解方法将应用于无法使用指代注释文集的任务和领域中。因此,在开发指代消解方法应该注意普适性。

此外,我们还表明,在CoNLL数据集的训练和验证集之间存在明显的重叠。LEA度量方法被提出,以尝试使相关的评估方案更加可靠。然而,为了确保指代消解方法可靠发展,只有可靠的评估指标是不够的。针对验证集的评估方法也需要是可靠的。如果针对数据集的巨大改进意味着可以更好地解决指代问题,而不是探索数据集本身,那么这个数据集对于评估来说就是可靠的。

这篇论文的目的并不是反对使用词汇特征,特别是当词向量被用作词汇特征时。词向量的合并是获取语义关联的一种有效方法。也许我们应该多使用它们来描述上下文,而非它们本身。修剪罕见的词汇特征,同时合并普适化的特征也有助于防止过度拟合。

为了确保更有意义的改进,我们要求在当前的指代消解评估方案中,融入域外评估方式。可以通过使用CoNLL数据集的现有类型或使用其他现有的指代消解注释数据集(如WikiCoref、MUC或ACE)来执行外域评估。

论文下载链接:

http://www.aclweb.org/anthology/P/P17/P17-2003.pdf

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180411A14OK500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券