前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >终于有人把知识图谱讲明白了

终于有人把知识图谱讲明白了

作者头像
IT阅读排行榜
发布2023-02-13 17:56:09
2740
发布2023-02-13 17:56:09
举报
文章被收录于专栏:华章科技华章科技

作者:蒋明炜

来源:大数据DT(ID:hzdashuju)

01 知识图谱的由来

1977年,美国计算机科学家费根鲍姆正式命名知识工程,他曾于1994年获得图灵奖,被誉为专家系统之父,知识工程奠基人。知识工程是自上而下的,并严重依赖专家干预。知识工程的基本目标就是把专家的知识赋予机器,利用机器解决问题。

在传统的知识工程里,首先需要有相关领域的专家,而且专家能够把自己的知识表达出来;其次,还需要有知识工程师把专家表达的知识变成计算机能够处理的形式。

互联网的应用催生了大数据时代下的知识工程。虽然知识工程解决问题的思路极具前瞻性,但传统知识工程能够表示的规模有限,难以适应互联网时代大规模开放应用的需求。

为应对这些问题,学界和业界的知识工程研究者们试图寻找新的解决方案。于是学者们将目光转移到数据本身上,提出了链接数据的概念。

链接数据中的数据不仅仅需要发布于语义网中,更需要建立自身数据之间的联系,从而形成一张巨大的链接数据网。首先在这项技术上取得重大突破的是谷歌的搜索引擎产品,谷歌将其命名为“知识图谱”。

02 知识图谱的定义

知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成了一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。图1.5便是一个围绕产品全生命周期的知识图谱示例,一般来说知识图谱中包含三种节点:

▲图1.5 产品全生命周期知识图谱

实体或概念指的是具有可区别性且独立存在的某种事物。以图1.5为例,产品、产品1、研发设计、生产制造、采购、质量等都是一个个实体。世界万物由若干具体事物组成,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

属性及属性值用来刻画实体的内在特性,从一个实体指向它的属性值。不同的属性类型对应不同类型属性的边。属性值主要指对象指定属性的值。如图1.5所示的“采购”“生产”“质量”是几种不同的属性。属性值则是采购物料的数量和价格、生产数量和进度、采购和生产的质量指标。

关系则是用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作一张巨大的关系网图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。

03 知识图谱的技术架构

知识图谱的技术架构是指其构建模式的结构,如图1.6所示。图1.6中虚线框内的部分为知识图谱的构建过程,也包含知识图谱的更新过程。

▲图1.6 知识图谱的技术架构

知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中进行知识提取,并将其存入知识库的数据层和模式层中,这一过程包含数据采集、知识抽取、知识融合、知识加工、知识应用五个过程,每一次更新迭代均包含这四个阶段。

知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。

自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入知识库中。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如Freebase项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入知识库中,再构建顶层的本体模式。

对于大多数制造业企业来说,由于缺乏大量的实证数据,在应用初期主要使用自顶向下的构建方式。

04 知识图谱与大数据的区别

知识图谱是运用一套新的技术和方法论在知识结构化和分析洞察两个方面提升信息转化为知识并且被利用的效率。大数据和知识图谱的抽象工作都是关于“结构化”和“关联”的,不过大数据是数据结构化和数据级别的关联,知识图谱是知识结构化和知识级别的关联。

所谓知识结构化在知识图谱技术中就是用三元组的数据结构对实体和关系建模。知识图谱在解决分析洞察这类问题时,在处理“关系”这件事情上,更直观也更高效。知识图谱技术无非是将人工的过程平移,希望计算机能够更高效地完成这一工程。

大数据很大程度上是在尝试将非结构化的数据转为结构化的数据,使其能被计算机分析,从这个意义上讲,传统的企业大数据平台、数据治理和知识图谱无疑都要共享企业的大数据。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-08-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档