首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

知识图谱终于火了,但你真的了解它吗?

写在前面

知识图谱虽然日渐成为很多人工智能企业祭出的新法宝,产业界对其内涵也有了基本共识,但信不信由你,其实业界竟然基本上是没有一个“官方”定义的。

笔者近来曾经和Gartner分析师进行过一次知识图谱方面的技术交流,发现国内外在知识图谱领域的发展路径和热点有很多有趣的差异,知识图谱的定义就是其一。今天就用一篇小文大致介绍一下国内外关于知识图谱概念的这点儿事儿。

众所周知,知识图谱(Knowledge Graph)一词是由谷歌公司提出的,然而在那著名的一篇首次提出这一Buzzword的博文“介绍知识图谱:事物,而非字符串”(Introducing the Knowledge Graph: things, not strings)里,始作俑者也并未给出什么可以流传膜拜的定义,而仅仅从知识图谱的功用上做了陈述。

笔者基于谷歌知识图谱的架构,可以大致替他总结成这么一句:知识图谱可以理解为一个语义网,是与知识库的密切关联、但又有明显差异的一个技术栈(Technology Stack),在谷歌的设计理念中,知识图谱的目标是解决信息过载问题。

图:谷歌知识图谱技术架构

网上还可以找到Google研究员Kevin Murphy在谷歌发布知识图谱一年半之后2013年信息与知识管理会议CIKM上的演讲稿,里面倒是有一页醒目的以“谷歌的知识图谱”为大标题,怀着激动的心如饥似渴的搜寻下面的内容里是不是有官方定义,感觉受骗了。

迄今为止,维基百科上的Knowledge Graph词条依然只是局限于解读谷歌知识图谱:知识图谱是Google所使用的一个知识库及服务,它利用多种来源收集的信息来提升搜索引擎返回结果的质量(The Knowledge Graph is a knowledge base used by Google and its services to enhance its search engine's results with information gathered from a variety of sources.)。

虽然忠于原创没什么不对,但也不得不承认,在先后的技术发展历程中,国际上有微软,中国有BAT等公司都在这一领域中有过很多的研究和应用,知识图谱一词已经成为知识应用领域的一个通用词汇,依然局限于知识图谱是谷歌的知识图谱的维基百科有点儿食古不化的感觉(嗯,如果有人非要反驳说微博就是新浪微博,似乎我们也无话可说,但实际上知识图谱这个领域跟微博还是不一样的,等到新浪收了推特我们再争论这个逻辑哈)。

维基百科没啥用了,那么百度百科如何呢?

移步度娘,我们发现她这样说: “通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。”虽然有些八股,但毕竟算是本土的解读。但是接下来的内容就稍微有点儿尴尬:

考虑到百度在知识图谱方面也是颇有作为的,这个词条这样任性除了理解为定义神马的并不重要,另一种可能就是知识图谱的定义真的不那么容易。

从国内外学术机构的研究论著中看,事实应该是后者。尽管国外在知识图谱领域的研究早过我们很多,但近年来我国高校学者也的确发表了许多知识图谱方面的优秀论文,涌现了不少产学研贯通,将学术研究转化为生产力的教授。从这些论文中,我们终于发现了一些比较完整和全面的知识图谱定义:

知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符。每个属性-值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。

——华东理工教授王昊奋

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是‘实体-关系-实体’三元组,以及实体及其属性-值对,实体间通过关系相互联结,构成网状的知识结构。

——电子科技大学刘峤等

当然,也不是说国外学术研究在这一方面完全缺位,在诸多资料中,笔者发现2016年奥地利Johannes Kepler University Linz大学的Lisa Ehrlinger and Wolfram Wöß发表过一篇《走近知识图谱定义(Towards a Definition of Knowledge Graphs)》,其中比较全面的阐述了知识图谱、知识库、知识系统、本体等概念之间的渊源和差异,而且对知识图谱有一个比较精妙的定义,有兴趣的同学可以在网上找到读读,应该会有收获。

另外,硅谷的华人信息科学精英近年来有不少也加入了知识图谱的国内产学研圈子,他们的讨论对于理解知识图谱的概念也非常有帮助,比如现任JD硅谷研发中心首席科学家的李维博士,对于本体、知识图谱、自然语言处理等术语的辨析和孜孜以求的态度就深得笔者之心。

当前,国内人工智能界对知识图谱有着大量的讨论,在互联网的网站科普、知乎等社交问答网站上存在多种表述,用户和技术专家们对知识图谱有着或同或异的看法,而技术厂商却大多没有明确的提出各自主张的定义。技术厂商的这种表现似乎也是可以理解的,一者也许知识图谱这一说法比较生动易懂,不像区块链那么神秘深奥,听到的都似乎秒懂了,也就无需甚解;二者也许这一概念的炒作已入佳境,找到应用场景和落地为重,争辩其定义已经开始显得多余了。

写在最后

尽管存在即合理,笔者也同意不必考据学家一样的追寻精准的定义,但同时也看到技术供需双方对于知识图谱的理解差异很大,这对于知识图谱技术的实景落地造成了一定的障碍,例如用户期望值过高或偏差等情况,鉴于此,业界对于知识图谱形成一个比较一致的共识定义还是很有必要的。

可喜的是,工信部信通院云计算与大数据研究所已经着手编写国内首部知识图谱应用白皮书,其中对知识图谱的概念、技术本质、应用场景、实战案例等一一进行了详细剖析。笔者代表中软国际大数据团队有幸参与其中,在这里就不多做剧透了,期待集信通院和各界专家众智的白皮书早日付梓。

END

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180130G058RE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券