首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

佐治亚理工学院:LinkNBed:基于实体链接的多图表示学习

你和“懂AI”之间,只差了一篇论文

很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。

这是读芯术解读的第103篇论文

ACL 2018 Long Papers

LinkNBed:基于实体链接的多图表示学习

LinkNBed: Multi-Graph Representation Learning with Entity Linkage

佐治亚理工学院

Georgia Tech

本文是佐治亚理工学院发表于 ACL 2018 的工作,为知识图谱构建工作提出了一个深层关系学习框架LinkNBed,通过识别多图间的实体链接,联合多个图来学习实体和关系表示,并建立一个有效的多任务训练程序。在链接预测和实体链接上的实验表明,本文方法相比最新的关系学习方法有实质性的改进。

1 引言

多关系数据推理是人工智能领域中的一个关键概念,知识图谱作为建立多关系数据模型的有效工具已经在,已经在信息检索、自然语言处理、推荐系统、问答系统等许多重要应用领域广泛应用,越来越受到重视。因此,研究者大量地构建许多大型的知识库,DBpedia、Google知识图谱、Yago和NELL,它们可以通过关系格式表示网络信息。

所有知识图谱都具有不完整和稀疏性的缺点,因此大多数现有的关系学习技术集中于使用不完全图中的观察到的三元组,来推断该图中未观测的三元组。学习实体和关系的向量空间表示的神经网络技术,在此任务中取得了显著成功。然而,这些技术只专注于从单一的图中学习。除了不完全性之外,这些知识图谱还共享一组重叠的实体和与不同信息的关系。这使得设计一种能够学习多个图,并最终联合形成统一巨图的技术,变得越来越引人注目。虽然近年来对单图学习表示的研究发展迅速,但是对于解决跨多图学习中遇到的独特挑战,尚缺乏高效有用的方法。

多图表示学习方法首先需要解决图的对齐问题,然后对合并后的图使用现有的关系学习方法。然而,真实世界的数据本质上是包含噪声且复杂的,这使得鲁棒的特征学习变得很困难。近年来,深层学习在噪声大、规模大、异构的图形数据学习中扮演着越来越重要的作用。因此,我们假设将图对齐任务与跨多关系图的深度表示学习相结合有可能对两个任务产生协同效应。我们确定图形对齐过程的一个关键组件-实体链接-在多图学习中也起着至关重要的作用。例如,对于参与者来说,通过两个知识图谱学习的嵌入应该比所有其他实体的嵌入更接近。类似地,由于共享上下文和数据,已经跨两个图对齐的实体应该能产生更好的嵌入。为了对这种现象进行建模,我们提出了一种新的深度学习框架LinkNBed,它联合执行表示学习和图形链接任务。本文的创新点如下:

提出了联合学习实体表示和实体链接的新方法。本文框架的新颖性源于它支持跨异构类型的实体链接任务。

设计了一个独立于图的归纳框架,该框架学习为实体和关系捕获上下文信息,它将结构图和语义信息结合起来,以规则的方式进行联合推理。

标记实例(特别是链接任务的正实例)通常非常稀疏,因此本文设计了一种新颖的多任务损失函数,其中实体链接任务跨各种学习场景进行稳定处理,例如仅使用未标记的实例或仅使用负实例。

设计了一个有效的训练程序,以线性时间执行三组数的联合训练。在Freebase和IMDB推荐的两组数据集上,本文方法都表现出了优越的性能。

2 模型

我们提出了一个新的归纳多图关系学习框架,该框架学习一组聚合器函数,该聚合器函数能够为多关系图中的实体和关系摄取各种上下文信息。这些功能将摄取的结构和语义信息编码成低维实体和关系嵌入。此外,我们使用这些表示来学习关系得分函数,该函数可以计算两个实体在特定关系中可以如何进行连接。这个公式背后的关键思想是,当观察到一个三元组时,可以使用各种上下文信息来解释两个实体之间的关系,例如两个实体的局部邻域特征、两个实体的属性特征和实体的类型信息。

在本文框架中通过多个图建立实体嵌入关系的两个关键点如下:

嵌入相似性:如果两个实体和表示真实世界的相同实体,词表示和会比较接近。

语义替换:对于一个给定三元组,函数指的是使用实体和关系嵌入计算t的关系得分。如果对于,存在一个匹配实体,在使用替换之后。此时,,三元组t和t‘相似。

对于一个三元组,LinkNBed的编码机制可以描述为三层,对给定三元组计算最终的输出表示。下图给出了LinkNBed结构图。

Atomic Layer

实体、关系、类型和属性首先被编码在其基本向量表示中。我们使用这些基本表示,进一步获得更复杂的上下文嵌入表示。

实体、关系和类型。对应于这三个分量的嵌入向量如下。可以随机初始化,使用预训练的词嵌入或基于名词短语的合成向量。

属性。对于以键-值对表示的给定属性a,我们使用段落paragraph2vec类型的嵌入网络来学习属性嵌入。具体来说,我们将属性嵌入向量表示为:

akey是one-hot向量,aval是特征向量。注意,嵌入向量的维数不一定需要相同。

Contextual Layer

虽然上述实体和关系嵌入有助于捕获非常通用的潜在特征,但是可以进一步捕获结构信息、属性信息和类型信息以丰富嵌入,更好地解释事实的存在。这样的信息可以被建模为图中的节点和边缘的上下文。为此,我们设计以下规范聚合器函数,该函数通过聚合相关嵌入向量来学习各种上下文信息:

其中是组件z聚合的上下文信息的向量表示。这里,组件z可以是实体或关系。是Z和Z’的上下文中对应于这些分量的向量嵌入。AGG是聚合函数,它可以采用许多形式,如均值、Max、Pooling或更复杂的基于LSTM的聚合器。上下文中的不同组件可能对学习嵌入的组件具有不同的影响,因此,我们采用soft注意机制,在聚合之前,根据影响来学习对组件的权重的注意力系数。公式可修改为:

是注意力机制的参数。本文模型嵌入学习了相邻实体上下文、实体属性上下文和关系类型上下文信息。

Representation Layer

计算三元组atomic and contextual嵌入之后,本文使用以下方式获得最终的嵌入表示:

关系打分函数

采用下述公式利用上文计算出得嵌入表示去捕获两个实体之间的交互关系:

其中,是一个d维实体和关系表示。是一个非线性激活函数,表示元素相乘运算。

目标函数

模型的参数空间可表示为。为了学习这些参数,我们设计了一种新颖的多任务目标函数,共同训练两个图。如前所述,本文模型的目标是利用可用的多图信息来优化实体和关系嵌入,使得它们能够解释图中所观察到的三元组。此外,我们希望利用这些优化的嵌入,以跨图形匹配实体,并扩展可用的链接信息。为了实现这一目标,我们定义以下两个不同的损失函数,优化一个多任务目标学习模型参数:

关系学习损失:这是用于学习知识图谱嵌入的常规损失函数。给定来自训练集D的第p个三元组,我们通过替换头部或尾部实体来采样C个负样本,并定义一个对比的最大边缘函数,如下所示:

链接学习损失:设计一个利用成对的标签集合的新型损失函数。从知识图谱X中给定三元组,首先从图Y中寻找代表相同真实世界实体的实体。然后从图Y中寻找包含父标签实体的实体集合。公式如下:

给定N的一个集合D,定义多任务目标为:

3 实验

我们在两个真实知识图谱上对LinkNBed和基线进行了评估:D-IMDB(从大规模IMDB数据导出的)和D-FB(从大规模Freebase数据快照中提取)。下表为实验中使用数据集的统计结果。

训练算法如下:

链接预测结果

我们在两个知识图谱之间联合训练LinkNBed模型,然后对单个图进行推理,以进行链接预测。下表显示了链接预测的性能。

本文提出的有注意机制的模型变体在D-IMDB上的性能优于所有基线,与单图状态复杂模型相比提高了4.15%,在DFB数据集上提高了8.23%。由于D-FB具有大量的稀疏关系、类型和属性,并且与D-IMDB相比,它的关系证据(三元组的数量)数量级较低,因此学习D-FB更具挑战性。因此,LinkNBed在D-FB上的显著改进证明了该模型的有效性。只有实体嵌入的简单版与具有不同目标函数的DistMult模型类似。因此,这两个模型的性能与预期的结果一致。我们观察到,仅Neighborhood上下文仅提供了少量的改进,而模型在属性的使用方面获益更多。尽相比于通过训练和评价单个图获得的基线,本文方法的优异性也进一步证明了多图学习的有效性。

实体链接结果

我们在两种设置中展示本文方法的实体链接结果:a)受监督的情况,使用两个目标函数进行训练。b)无监督的情况下,只学习关系损失函数。为了实现所有模型的无监督情况下的实体连接,首先训练第二阶段的简单神经网络分类器,然后进行推理。在监督的情况下,本文使用以下算法来执行推理。

实验结果如下表所示。

本文方法显著优于所有基线,在监督情况下比第二最佳基线高33.86%,在非监督情况下比第二最佳基线高17.35%。在两种情况下,我们方法的性能差异表明,两个训练目标通过跨图的学习相互促进。与其他最先进的系统模型相比,GAKE在这个任务上的卓越性能表明了使用上下文信息进行实体链接的重要性。我们模型的其他变体的性能再次证明了属性信息比邻域上下文更有帮助。

4 总结

许多数据驱动组织,如Google和Microsoft,采用集成来自多个源的数据的方法来构建统一的超级图,在搜索、问答等领域都表现出突出优势。然而,对于大规模的知识图来说,链接实体和关系、冲突解决任务仍然具有很大挑战性,本文提出了一种深层关系学习框架,可以在此构建过程中起到至关重要的作用,它利用了一个有效的学习和推理过程,学习跨多个图的实体和关系嵌入。与只在单个图形上训练的现有方法相比,本文方法在链接预测和实体链接任务上都展示了优越的性能。这项工作开辟了一个新的多知识图谱联合表示学习的研究方向。

对于未来的工作,考虑将本文工作从两个图扩展到多个图。一种简单的方法是通过组合三元组来创建由多于两个图组成的统一数据集,并在统一图上应用学习和推理,而不需要对方法进行任何重大改变。本文使用归纳框架学习函数来编码上下文信息,因此是图无关的。或者,可以开发更复杂的方法,通过对图对进行迭代合并和学习,直到遍历完输入集合中的所有图。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190116B0L7BY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券