首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

罗格斯大学:细粒度开放词汇实体类型描述生成

你和“懂AI”之间,只差了一篇论文

很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。

这是读芯术解读的第113篇论文

ACL 2018 Long Papers

细粒度开放词汇实体类型描述生成

Generating Fine-Grained Open Vocabulary Entity Type Descriptions

罗格斯大学

Rutgers University

本文是罗格斯大学发表于 ACL 2018 的工作,虽然大规模知识图谱提供了大量的实体结构化关系,但简短的文本描述往往可以更简洁地描述实体及其类型。不幸的是,许多知识图谱实体缺乏这样的文本描述。本文介绍了一个动态记忆网络,它通过联合利用事实嵌入以及生成的单词序列的动态上下文来生成关于实体的简短开放的词汇描述。与几个基线的比较结果展示了本文方法在识别关联信息以便更准确地生成类型描述上的优势。

引言

大规模知识图谱,如Freebase、Wikidata和NELL等,越来越多地应用于许多NLP和AI任务中。例如,DBpedia和YAGO对于IBM’s Waston来说是至关重要的!Jeopardy系统。谷歌的知识图谱紧密集成到搜索引擎中,实体查询以及问答响应得到了巨大改进。类似的,苹果公司建立内部知识图谱去增强Siri和它的下一代智能产品和服务。

尽管有丰富的事实性知识的来源,跨域知识图谱经常会缺少许多对现有实体的一个简洁文字描述。下图描绘了呈现给用户的简洁实体描述的示例。这种描述对人和下游人工智能、自然语言处理任务都有很大帮助,包括问答(例如,Who is Roger Federer?)、命名实体消歧(例如,Philadelphia是作为一个城市、还是电影甚至奶油奶酪品牌)、信息检索等等。

此外,这种描述对确定一个实体的本体类型也很有用,本体类型识别也是一个具有挑战性的任务,往往需要在跨域知识图谱上进行处理。许多知识图谱已经提供了本体论的类型信息,并有大量前人研究如何在知识图谱、半结构化的资源如维基百科、甚至非结构化文本上自动预测这种实体类型。然而,大多数这样的工作是将一个给定的目标实体对应到一个固定的类型库中的类型相对应,其中许多是更抽象的性质(例如,human或artifact)。在这项工作中,我们考虑更细节的词汇描述生成任务(例如,Swiss tennis player),从事实知识图谱生成以后,可以很容易地呈现给最终用户。

除了类型描述,一些知识图谱,如Freebase和DBpedia,还为每个实体提供了一段长度的文本摘要。虽然这种摘要提供比本体类型相当多的细节,他们没有足够的简洁到一目了然的效果,而把责任放在了读者的理解和总结上。

一般来说,一个实体的简短描述一般需要通过利用与它最相关某些事实来进行综合生成。虽然在许多情况下,人类倾向于在通常称为基本层次类别的抽象层次上对实体进行分类,但是在信息搜索设置中,例如在上图中,人类自然期望获取更多细节。例如,在维基数据中,职业和国籍通常是用来描述一个人的两个最相关的属性,而诸如person 或 human being之类的术语可能被认为过于不具体。然而,从实体相关的一组可用事实中选择这些最相关和最独特的属性,是很不容易的,特别是考虑到大规模知识图谱中不同类型的实体的多样性。此外,生成的文本应该是尽可能连贯、简洁、非冗余的。

为了解决这个问题,我们提出一个动态记忆生成网络,它能够从关于实体的可用事实信息中生成简短的文本描述。据我们所知,我们是第一个提出采用神经方法来解决这个问题的人。以前的工作建议使用预定义的模板来生成简短描述。然而,这种方法严重限制了模型的表达能力,因此这种模板通常只应用于非常领域非常狭窄的实体类。相比之下,我们的目标是设计一个广泛覆盖的开放域描述生成体系结构。

模型

我们提出的动态记忆生成网络包括三个关键组件:输入模块、动态记忆模块和输出模块,如下图所示。

输入模块。输入模块的输入是关于一个实体的N个事实的集合。每一个输入事实都是三元组(s,p,o),主语s,谓词p,和宾语o。当被编码成分布式向量表示时,我们将它们称为事实嵌入。

我们将每一个事实fi编码为一个向量,其中为元素相乘的表示符号,Ij是结构的列向量,J是事实短语中的单词个数,是第j个词的嵌入表示,d是嵌入的维数。因此输入模块为N个事实嵌入表示的连接。

动态记忆模块。动态记忆模块负责记忆关于实体的特定事实,这些事实对于生成输出描述序列中的下一个单词很有用。直观地,这样的记忆应该能够通过不仅考虑实际嵌入,而且考虑生成的单词序列的当前上下文来动态地更新。

首先,将记忆初始化为。在每个时间步骤t,记忆模块试图通过以加权求和方式关注事实嵌入来收集相关的上下文信息。这些注意力权重是由两个因素影响的标量值:(1)先前的记忆状态m(t_1)使用了来自特定事实的多少信息,以及(2)在输出序列h(t_1)的当前上下文中调用了特定事实的多少信息。一般地,

其中,是元素乘的绝对值,表示向量的拼接。

在获得注意力权重之后,我们使用软注意机制在时间t处提取当前上下文向量。

然后,将新获得的上下文信息与先前的记忆状态一起使用,以更新记忆状态如下。

这样更新的记忆状态在每个时间步长上用作输出模块的解码器序列的输入。

输出模块。输出模块控制重复解码当前记忆状态的过程,以便以输出字的有序序列的下一个字。对此我们依赖GRUs。

在每个时间步骤中,解码器GRU作为输入呈现当前记忆状态m(t)以及输出序列的前上下文,即,解码器h(t_1)的前隐藏状态。在每个步骤中,GRU的结果输出与上下文向量ci(t)连接,并通过完全连接层,最后通过softmax层。在训练期间,我们在每个步骤采用teacher forcing,通过在序列中提供前一个正确单词的向量嵌入作为附加输入。在测试期间,当这样的信号不可用时,我们使用在前一步骤中的预测的词嵌入作为对当前步骤的附加输入。一般地,

是拼接计算,是句中前一个词的向量嵌入,是在当前步骤上预测词在词汇表上的概率分布。

损失函数和训练。训练该模型等于为模型参数θ选择合适的值,包括矩阵W1、W2、Wm、Wd、Wo和相应的偏置项b1、b2、bm、bd和bo以及GRU的各种变换和输出矩阵。

为此,如果每个训练实例具有最大M个词的描述,则可以依赖整个输出序列上的分类交叉熵作为损失函数:

其中,是词汇大小。

我们使用Adam作为优化技术来训练我们的端到端模型。

实验

基准数据集创建。为了评估我们的方法,我们引入了一个新的基准数据集,我们从Wikidata中提取并转换为合适的格式。我们依赖于Wikidata的官方RDF输出,这些输出是日期为2016-08-01的RDF转储,它由具有2570个不同属性的19768780个实体组成。一对属性及其对应值代表一个实体的事实。在Wikidata用语中,这些事实被称为陈述。我们从Wikidata中采样10K个实体的数据集,然后将得到的数据集称为WikiFacts10K。我们的采样方法确保WikiFacts10K中的每个实体都有英文描述和至少5个相关语句。然后,我们通过连接属性名称及其值的单词,将每个提取的语句转换成一个短语形式。例如,(主语,谓语,宾语)三元组(罗杰·费德勒,职业,网球选手)被转换为“职业网球选手”。我们把这些短语称为事实短语。我们随机地将这个数据集分成8:1:1的训练、验证和测试集。本文代码和数据公开可见https://github.com/kingsaint/Open-vocabulary-entity- type-description。

实验结果如下表所示。我们观察到,我们的模型能获得明显更好的实验效果。

在下图中,我们将注意力分布想象为事实。我们观察模型如何将其焦点转移到不同类型的属性上,同时生成连续的单词。

下表提供了生成的描述和它们的ground truth counterparts的代表性样本。

手动检查揭示了五种不同的模式。第一种情况是与参考描述的精确匹配。第二个例子在事实和生成的描述之间有很高的单词重叠,但是后者由于语义漂移或其他挑战而不正确。在某些情况下,模型在训练期间可能从未见过单词或命名实体(例如,Hypocrisy),或者它们的频率在训练集中是非常有限的。虽然已经表明,具有注意力机制的GRU能够学习从输入中复制随机字符串,但我们推测专用的复制机制可能有助于缓解这个问题,我们将在以后的研究中探索这个问题。在其他情况下,该模型融合了语义相关的概念,从例如被描述为filmmaker的film和作为a water polo player的a polo player例子中可以明显看出。接下来,第三组涉及比基本事实更具体但正确的生成的描述,而在第四组中,生成的输出在一定程度上概括了描述。例如,American musician and pianist is generalized as American musician, since musician is a hypernym of pianist。最后一组:我们的模型生成了事实上准确的描述,并且尽管偏离了参考描述,但几乎不与它们共享重叠的单词,这些描述可以被认为是比较合适的。

总结

实体的简短文本描述有助于瞬时掌握关于实体及其类型的关键信息。从知识图谱中的事实生成过程,不仅需要将结构化的事实信息映射到自然语言,而且需要识别实体的类型,然后从长长的输入事实列表和压缩中识别特定类型的最关键的信息片段,把它们简化成一种简洁的形式。鉴于我们数据中非常异构的实体,这是非常具有挑战性的。

为此,我们引入了一种新的基于动态记忆的神经结构,该结构在每一步更新其记忆以持续地重新评估潜在输入信号的相关性。我们已经表明,我们的方法优于几个竞争基线。在未来的工作中,我们希望在包括多模态数据在内的其他类型的数据上探索这种体系结构的潜力,人们可以从中提取结构化信号。我们的代码和数据见https://github.com/kingsaint/ Open-vocabulary-entity-type-description。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190216B0FQPK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券