专栏首页图灵技术域知识图谱中的结构信息建模

知识图谱中的结构信息建模

文章目录

什么是知识图谱

全球最具权威的IT研究与顾问咨询公司高德纳发布了2020年AI领域技术成熟度曲线,其中知识图谱的期待值处在AI领域的顶峰,还有5到10年的发展机会达到平稳期,也就是大规模商用。知识图谱这个概念是在2012年谷歌知识图谱的提出而火起来的,追根溯源,知识图谱的前身是语义网络。通俗地说,知识图谱将无序分散的信息,以图的方式整合成知识。

那么知识图谱和图、异质图这些概念有什么区别呢。这里给出了三个概念的形式化定义。

其中图就是节点和边的集合,社交网络,引文网络,脉络树都是很典型的图。第二个是异质图的定义,异质图,也可以叫做异质信息网络,它与图的主要区别是HG有多种节点类型或关系类型。其中,我们的Acemap的学术知识图谱就是一种异构图。因此,知识图谱是一种特殊的异构图,但是,知识图谱侧重于基于事实的三元组,从定义中可以看到,它是由实体,关系类型和事实组成。其中事实就是基于头结点关系尾节点的三元组,本质上是实体的边。需要注意的是,在KG中,两个实体之间边的数量和类型是任意的。因此从结构上讲,知识图谱中节点类型之间的关系和路径是指数级的,远远超过异质图。这就是为什么我把我们的Acemap归于异质图的原因。

有趣的是,虽然知识图谱属于异质图,但是这两个方向的研究者几乎不引用对方的论文。

知识图谱结构概念

Schema

知识图谱和异质图在结构上有一些共享概念,第一个是schema [1]。它是由节点类型和关系类型组成的图,独立与实际的节点,反映了知识概念层的信息。最左边是一个学术网络的异质图,和Acemap类似,包含了作者、论文等多种类型的实体。

Meta-path

另外一个结构上的概念是元路径。 元路径就是指schema上节点类型之间的路径。由于知识图谱中的节点关系类型很多,因此,元路径的数量也是呈指数级增长的,因此在KG的表示学习领域,很少用所有节点的元路径来建模,但是我们可以将元路径看做一种推理过程,在KG的推理任务中,元路径是非常有价值的,它可以应用到问答系统,推荐系统等具体任务。

知识图谱结构信息建模

其中,利用KG中的结构信息进行表示学习是研究最多的方向。很显然,结构信息的建模无非是从边、路径和子图三个部分进行。其中大部分工作室基于边的,少部分工作是采用知识图谱中的路径建模的(这个路径是真实路径而不是元路径),几乎没有纯粹使用子图建模的KG表示学习方法。

和基于消息传递的GNN不同的是,由于KG中的实体和关系类型非常多,它的表示学习是通过设计一个三元组评分函数来建模,而不是使用元路径。

基于一阶结构信息的嵌入,也就是基于边的嵌入方法有三种经典的模型 [2],其中transE生成三元组的嵌入向量,通过评分函数,使得这些向量满足头实体+关系=尾实体这样的性质。但是它只能处理1对1的关系,不能处理1对多多对一多对多的关系,transH和transR分别将实体和关系映射到不同的超平面或坐标系中来解决这样的问题。

Path-based

PtransE [3]是一个基于路径的模型。和transE不同的是,它将实体之间的路径信息考虑到建模过程中去。从图中可以看到,作者将路径变成一种复合关系,使得这些向量满足头实体+复合关系=尾实体的要求来进行训练。其中的能量函数体现了这个过程。

同时,考虑到不同的路径产生的贡献是不同的,因此这个模型通过路径中分支的数量给每个路径打分,分支数量越少,该路径的可靠度就越高。这是第二个公式体现的,最后通过负采样损失函数进行训练。

Subgraph-based

前面提到过,利用子图进行建模的论文很少,只有一些交叉的工作,例如这里的CoLAKE [4],这是一个同时训练自然语言和知识的模型,它首先将文本中的单词连成一个完全图,接着从知识图谱中找到文本中出现实体的子图,将文本的完全图和KG的子图合并。在很多自然语言任务上可以获得很好的效果。

其他

那么我们如何将更具体的结构信息融入到表示学习当中去呢?我们先看到图嵌入中的一个例子。这是一个今年的论文,它是基于VNGE的神经网络GNN模型,叫做VNEstruct [5]。

图中,一个节点的一跳邻域是深黄色,二跳是浅黄色,这个模型给每个节点设置了一个半径R,在训练之前,计算这个半径R内,1跳邻域子图的VNGE到R跳领域子图的VNGE。随后,作者将这R个值组合成一个向量进行训练。

但是我觉得这不是一个完美的模型。一个完美的模型应该是将整个图作为输入,通过神经网络提取特征进行训练,而VNEstrcut这个模型,是在输入之前,对节点做特征工程,将人工提取的VNGE向量输入到神经网络。因此一个好的模型应该是端到端的模型,因为神经网络本质上是一个特征提取器,它根据具体任务有选择地提取图的结构特性。

参考

  1. Wang et al., “A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources,” arXiv. 30-Nov-2020.
  2. Wang et al., “Knowledge Graph Embedding: A Survey of Approaches and Applications,” TKDE, vol. 29, no. 12, pp. 2724–2743, Oct. 2017.
  3. Lin et al., “Modeling Relation Paths for Representation Learning of Knowledge Bases,” EMNLP, 2015, vol. cs.CL.
  4. Sun, Tianxiang, et al. “CoLAKE: Contextualized Language and Knowledge Embedding.” Proceedings of the 28th International Conference on Computational Linguistics. 2020.
  5. Dasoulas,et al., “Ego-based Entropy Measures for Structural Representations on Graphs,” arXiv, vol. cs.LG. 17-Feb-2021.

更多内容访问 [omegaxyz.com](https://www.omegaxyz.com/) 网站所有代码采用Apache 2.0授权 网站文章采用知识共享许可协议BY-NC-SA4.0授权 © 2021 • OmegaXYZ-版权所有 转载请注明出处

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【知识图谱】知识图谱的构建-python-neo4j

    jdk、neo4j图数据库 neo4j具体的安装过程可以参考这里:https://cloud.tencent.com/developer/article/13...

    西西嘛呦
  • 【知识图谱】知识表示:知识图谱如何表示结构化的知识?

    互联网时代,人类在与自然和社会的交互中生产了异常庞大的数据,这些数据中包含了大量描述自然界和人类社会客观规律有用信息。如何将这些信息有效组织起来,进行结构化的存...

    用户1508658
  • 大规模知识图谱的构建、推理及应用

    用户1737318
  • 大规模知识图谱的构建、推理及应用

    随着大数据的应用越来越广泛,人工智能也终于在几番沉浮后再次焕发出了活力。除了理论基础层面的发展以外,本轮发展最为瞩目的是大数据基础设施、存储和计算能力增长所带来...

    华章科技
  • 干货 | 大规模知识图谱的构建、推理及应用

    作者简介 李健,携程度假研发部研发总监,2013年底加入携程,在数据挖掘分析、人工智能方面有一定的实践与积累。 随着大数据的应用越来越广泛,人工智能也终于在几番...

    携程技术
  • 融合事实信息的知识图谱嵌入——语义匹配模型

    知识图谱(KG)是由实体 (节点) 和关系 (不同类型的边) 组成的多关系图。每条边都表示为形式 (头实体、关系、尾实体) 的三个部分,也称为事实,表示两个实体...

    里克贝斯
  • 融合事实信息的知识图谱嵌入——翻译距离模型

    知识图谱(KG)是由实体 (节点) 和关系 (不同类型的边) 组成的多关系图。每条边都表示为形式 (头实体、关系、尾实体) 的三个部分,也称为事实,表示两个实体...

    里克贝斯
  • 干货!浅谈知识图谱的构建与应用

    自从2012年Geogle推出自己第一版知识图谱以来,各大互联网企业也纷纷推出了自己的知识图谱产品。知识图谱是把所有不同种类的信息连接在一起而得到的一个关系网络...

    小莹莹
  • 携程的旅游知识图谱构建和应用

    本文首先介绍了什么是旅游知识图谱,然后就旅游知识图谱的架构,构建,应用和未来几个方面展开讨论。

    数据猿
  • Wiztalk | 刘铭 Part 2 《开放域知识图谱的构建到使用—知识图谱的核心问题》

    开放域知识图谱的构建到使用 Part 2 知识图谱的核心问题 简介:知识图谱作为让人工智能更加富有“人性”的一种技术,其研究方向又有着什么样的侧重呢?本期刘...

    腾讯高校合作
  • Wiztalk | 刘铭 Part 1 《开放域知识图谱的构建到使用—知识图谱的发展历程》

    开放域知识图谱的构建到使用 Part 1 知识图谱的发展历程 简介:知识是推动人工智能发展的重要手段,而知识图谱使得人工智能更像人,那么什么是知识图谱呢?今...

    腾讯高校合作
  • 如何构建基于知识图谱的用户画像

    这篇文章是瓜子内部Tech Talk的笔记,主要介绍如何构建基于知识图谱的用户画像,感谢家帅分享。

    普通程序员
  • AbutionGraph:构建以知识图谱为核心的下一代数据中台

    图特摩斯科技(Thutmose)基于自研的图形数据库AbutionGraph(实时多维数据存储与计算一体化的高可用平台)为核心,构建AI智能认知中台(认知图谱平...

    AI科技大本营
  • 文本歧义在隐私政策知识图谱构建中的影响

    目前,服务提供商通常会以人工的方式编写隐私政策,告知数据被共享、存储和使用的所有方式。在这种背景下,当一个新的服务推出时,隐私政策也要做相应的调整,同时要确保符...

    C4rpeDime
  • 知识图谱研讨实录07丨肖仰华教授带你读懂知识图谱的众包构建

    众包(Crowd-sourcing)是一种新型的外包模式,它将一群松散的任务发包方(Requester)和任务完成者(简称工人,Worker)联系起来,实现任务...

    博文视点Broadview
  • 链接万物——知识图谱的构建、存储和应用

    腾讯知文实验室
  • Wiztalk | 刘铭 Part 3 《开放域知识图谱的构建到使用—知识图谱的应用及发展趋势》

    开放域知识图谱的构建到使用 Part 3 知识图谱的应用及发展趋势 简介:带条件的知识图谱,它到底能做些什么呢?本期刘铭老师会带领我们了解知识图谱在信息探索...

    腾讯高校合作
  • 知识图谱技术分享会----有关知识图谱构建的部分关键技术简介及思考

    昨天在北理工参加了一场由 雪晴数据网和北京理工大学大数据创新学习中心联合举办的知识图谱分享活动,聆听了一下午报告,可谓是受益匪浅。一下午时间安排的非常饱满,总共...

    流川疯
  • 需要知识的后深度学习时代,如何高效自动构建知识图谱?

    二者展示的信息量是差不多的,但右边这种看起来更加直观。而且,随着文本篇幅的增长,这种优势会体现得更加明显。

    机器之心

扫码关注云+社区

领取腾讯云代金券