【观视界】浅谈知识图谱

数字化协会理事顾问

广州佰聆数据顾问有限公司解决方案经理

大家好,我是中国数字化协会的理事顾问,郑午。今天与大家浅谈一下-知识图谱。

知识图谱最早是谷歌在2012年推出的一个知识库,谷歌用这个知识库支持它新一代的搜索引擎。简单来说,知识图谱是由一些相互连接的实体,和它们的属性共同构成的。其中每一条知识都可以表示为一个SPO三元组,SPO是英文(Subject, Predicate, Object)的首字母缩写,翻译成中文可以理解为:(实体一,谓词,实体二)。这个谓词定义了实体一与实体二之间的关系。举个例子,特朗普是美国总统。对于这么一条知识来说,若表示成SPO三元组的话,实体一就是特朗普,谓词是职位,实体二是美国总统。那么这个三元组就表示了特朗普与美国总统之间的关系。同样的,对另外一条知识,如特朗普的女儿是伊万卡来说,表示成三元组的话,实体一就是特朗普,谓词是女儿,实体二就是伊万卡,那么它就表示了特朗普和伊万卡之间的关系。

在一个领域内,会有许许多多的知识,可表示为许许多多的三元组,这些三元组互相连接起来,就形成了一个巨大的网络。如果用“图”这种数据结构来表示的话,那么“图”的顶点,就是这个领域内的实体,“图”的边则是谓词,也就是定义了两个实体之间的关系,这个就是知识图谱简单的数据模型。知识图谱对搜索引擎的提高作用巨大。在知识图谱出现以前,搜索引擎是将用户输入的关键词作为字符串来处理的。其基本做法是,从索引的网页中找出所有包含用户输入的关键词的网页,然后用PageRank算法进行排序,再将排序结果返回给用户。其实搜索引擎就是将字符串进行匹配,并没有真正的去解答用户关于某个实体的真正需求。

有了知识图谱之后,搜索引擎就可以尝试去解读用户输入的关键词背后的真正实体是什么。比如说,有一个人输入了一组关键词:美国总统女儿的老公。用知识图谱的话,搜索引擎就会在知识图谱中查找,知道现任的美国总统是特朗普,从特朗普这个实体节点出发,通过女儿这个谓词关系,就可以找出伊万卡,她是美国总统特朗普的女儿。再从伊万卡这个实体节点出发,顺着丈夫这条谓词关系,就可以找到库什纳。这时搜索引擎就会知道,用户输入的关键词背后,其实是想知道库什纳的信息。这样,搜索引擎就可以将关于库什纳的信息的网页反馈给用户,而不仅仅是做关键词的匹配。所以谷歌在推出知识图谱时,所用的广告语是:“Things not strings”,翻译成中文就是:事物而不是字符串。简单来说,谷歌认为有了知识图谱之后,搜索引擎处理的就不再是字符串的匹配了,而是真正的能够解答用户对于某个事物的信息需求。

知识图谱这个词是谷歌首先提出的,但是这个技术却不是新发明的技术。知识图谱的技术源头甚至可以追溯至20世纪50年代,在那个时候,计算机科学家就提出了“语义网络”-semantic network数据模型,这个数据模型就是用三元组去描述概念之间的关系,这就与现在的知识图谱所做的是非常类似的。

在21世纪初,互联网之父Tim Berners-Lee提出“语义网” (Semantic Web)的概念,这也是他认为的下一代互联网的模型。Semantic Web 语义网的一个重要的组成部分是对于资源的描述这部分,它使用的技术叫做本体(Ontology),这个本体也是使用三元组来描述概念之间的关系。针对本体这项技术,互联网的技术标准机构——万维网联盟,也就是W3C,发布了一个用于描述实体或者资源的标准数据模型-RDF(Resource Description Framework)。而现在,RDF也被用于记录知识图谱中-知识的数据模型。知识图谱实际上是对“本体”这种知识组织技术的丰富和扩充。

在进入2000年后的几年间,“本体”是一个非常火热的技术概念。在各个不同的领域,大家都在用“本体”来组建自己的知识库,比较著名的“本体”有:Freebase,YAGO,它们是从维基百科中提取信息组建的知识库。在生物领域,比较著名的“本体”是:Gene Ontology,它是关于基因的知识库,在生命科学领域有着至关重要的作用。比较有意思的是,Freebase、YAGO这两个知识库是跨越了“本体”火热的年代,而且一直留存至“知识图谱”火热的年代。在“本体”比较火的时候,它们将自己称为“本体”;而到了“知识图谱”火热的时候,它们又称自己为“知识图谱”。这也可以看出,在本质上“本体”与“知识图谱”是非常相似的。

那么知识图谱到底有什么用呢?其中一个最直接,也是目前最广泛的应用就是用于搜索,也就是前文的阐述,在这里不重复了。现在的绝大多数的搜索引擎,包括谷歌、百度等等,他们都是使用了知识图谱的技术。还有一个应用,跟搜索类似,是用于问答机器人,可以用知识图谱来组织问答机器人所使用的知识库,通过知识图谱可以做些简单的推理,能够使问答机器人变得更加智能。还有一些比较特别的应用,比如说可以做金融的反欺诈。一些有组织的诈骗团伙,他们会使用大量的虚假身份,再结合真实的信息去申请贷款,那么对于这样的有组织的欺诈行为,识别难度会比较大。但是呢,诈骗团伙申请贷款时,使用的信息是有重复的,那么用知识图谱来表示申请人的信息,就会比较容易发现,在使用虚假身份申请时共享的一些信息,从而发现潜在的欺诈风险。

由于时间有限,今天只为大家简单介绍了知识图谱,(它的)技术和一些潜在的应用,大家有兴趣可以留言交流,谢谢大家。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2018-03-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

Python、 R 语言、SAS、SPSS 优缺点比较?给你常用的投一票!

从事数据分析要学那些语言呢?其实小编跟跟学员还有已经从事数据分析行业的人接触下来,给我的感觉是对于这个初级的数据分析师来,一般前二年做差不多都是老大让你做的是处...

38680
来自专栏大数据文摘

经济学人:Python为什么是编程语言中最skr的?

Python的出现让计算机编程语言不再是生僻的专业技能,而是常人都能学习和使用的万金油。

23200
来自专栏成猿之路

我们为什么都应该坚持写博客,意义何在?

我很早就想写一篇为什么我坚持写博客和文字的文章给大家洗洗脑,不会总结和不懂总结的程序员不会进步太快。

12820
来自专栏机器人网

独家 | 虚拟现实技术让焊接机器人实现跨越式发展

---- 3月23日至26日在芝加哥举行的Automate 2015展会上,主持人在讨论技术发展时谈到,虚拟现实、机器视觉等新技术的发展使得机器人焊接有了重大...

25920
来自专栏UML

六个思考帽子 (Six Thinking Hats) - 从所有观点看决定

Six Thinking Hats - 改变你的思维方式可以帮助你找到棘手问题的新解决方案。

32870
来自专栏腾讯技术工程官方号的专栏

TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览

? 一年一届的数据库领域顶级会议VLDB 2018即将于当地时间8月27日-8月31日在巴西里约热内卢召开。 在本届大会上,腾讯公司TDSQL团队携手中国人...

10.6K50
来自专栏iOSDevLog

时间管理笔记(二)

395130
来自专栏数据派THU

摩尔定律行将就木?AI灵丹助其返老还童!(附论文)

摩尔定律作为揭示科技产业尤其是电子工程领域呈指数级增长的基本定律之一,近年来增速放缓(2005年开始),导致很多从业者对其正确性产生质疑。然而,人工智能技术的加...

11920
来自专栏大数据文摘

为什么编程这么难?!

15130
来自专栏CDA数据分析师

【思维】如何把“数据”转化成可以行动的“信息”

题目中的这个问题,我理解是个本质。在数据时代,数据不管从哪里获取、用什么工具获取,也不管数据规模是否够得上是“大数据”,也不管你用来分析和利用这些数据的是BI软...

19070

扫码关注云+社区

领取腾讯云代金券