首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用AI创建AI用的知识图谱

在人工智能技术蓬勃发展的背后,人们或许会有这样的疑惑,人工智能是如何进行学习的?如何让机器更加聪明?微软认为,要让机器更好地理解人类交流并且进行语义计算,知识图谱技术扮演了不可或缺的重要角色。对此, 微软(亚洲)互联网工程院常务副院长张晧勇在微软创新实践论坛上进行了分享。

什么是人工智能?

什么是人工智能,相信大家可以从各种媒体渠道那里获得足够的信息,我在这里想用图灵测试和中文屋进行概括和总结。对于图灵测试,相信很多人都不会陌生。图灵在1950年为人工智能下了一个定义。图灵认为,如果一个测试者无法区分电脑的回复是人工回复的还是一段程序自动回复的,我们就认为这段程序有了智能。

30年后,也就是1980年,美国一个哲学家希尔勒以“中文屋“的思维实验,对类似图灵测试这样的人工智能定义的一种反驳。他假设有一间对外只有一个小孔的房间,外面的人可以通过把中文写的小纸条放到小孔里问问题,屋里有一个不会说中文的人,但是他有很强大的处理中文信息和回复的手册,他通过这个手册找到相应的中文字符组合的回复,再通过小孔把答案给回去。外面的人会以为屋里的人真的懂中文,但是屋里的人并不懂。他以这个例子映射即使计算机能够通过程序模拟人的行为,也不是真正的智能。这种例子在现在的一些人工智能应用上其实很常见。当然了,希尔勒是从一个哲学家角度在看这个问题,其实他更多的是指讨论“意识”而不是“智能”。不过他这个例子也引起了很多科学家的思考,衍生了像强人工智能和弱人工智能的说法。换一个角度考虑,大家设想一下,如果在做的各位是科学工作者,其实真的写出这么一屋子复杂的能以假乱真的中文回复手册其实也是非常困难的,而且如果屋子里面的人能懂一点中文,那他的工作肯定会做的更好更高效。这就意味着,如果我们做一件事情,不光知其然,更知其所以然,那么我们的做事效率一定会更高。对人来说如此,对计算机而言也是如此。我们今天讲的知识图谱,就是一个能帮助人工智能更知其所以然的工具。

什么是知识图谱?

知识图谱,顾名思义,就是以图谱的形式表达知识。每一个节点都是现实生活中一个概念的映射,每一条链接两个节点的线,代表这两个节点的关系。图谱是一种灵活、延展性强而且效率高的表现知识的结构。古希腊哲学家帕拉图对知识是这么定义的:“Justified true belief”, 翻成中文就是“合理的真实信念”。“合理”和“真实”这两点非常重要。所以我们想要的知识图谱,不光覆盖率要高,即知识要多,还要有根有据,并且要保证正确性。当然,由于新知识在不断被创造,因此,知识图谱的及时性也显得相当重要。

我这里用一个比较形象的方法帮助大家理解知识图谱的重要性。其实我们可以把知识图谱比喻成为计算机做的百科全书。人类很久以前就认识到了把知识收集,归纳,总结,去伪的重要性。所以明朝会有人编永乐大典,有人编大英百科全书,还有人利用利用互联网的人多力量大编维基百科。当然我举的这三个例子,还有很多别的百科全书,都是为人类写的。而我们现在说的知识图谱,是为计算机编的。

当然,为计算机编的百科全书,本身也需要人工智能去编写。就像明成祖组织了成千上万的人去收集、归纳、总结、去伪而编写出永乐大典,微软也有一套复杂的人工智能系统进行收集、归纳、总结、去伪来建造和维护微软的知识图谱。

在这里,我可以给大家举一个具象一点的例子。例如大家看过一部电影叫“港囧”。

在我们的知识图谱里,就有一个节点,我们把这种节点叫Entity。在我们的知识图谱里还有很多别的节点,譬如主演的演员“徐峥”,“赵薇”,再譬如中国香港的维多利亚港,这些都是我们的知识图谱里的节点 – Entity。我们在知识图谱里面把它们连接起来,每一个链接代表一种关系。譬如徐峥是这个电影的导演和演员,赵薇是这个电影的演员,维多利亚港在这个电影中出现过。而所有的这些信息,都会以一种适于计算机使用的模式呈现。

如何使用知识图谱?

在这里,我想通过两个例子来说明知识图片的使用。首先是在搜索方面的应用。例如,用户想知道苹果和桔子的热量哪个高。

如果是传统的网页搜索,我们要指望有这么一个网页来专门回答这个问题。然而在现实中,类似苹果,桔子,热量,这样的词汇在这个网页里出现,然后我们将这个网页找出,最后将搜索结果呈现给用户。但是如果当我们的搜索引擎有了微软知识图谱这样的百科全书呢?它就可以直接把苹果桔子的热量列出给到用户。

知识图谱在语义理解方面同样起着重要的左右。如果没有知识图谱,人工智能与人类的语言交互,就只能模拟聊天。而一旦加入了知识图谱,就可以帮助人类解决具体问题。例如用户使用自然语言询问人工智能的旅行助理相关信息,由于知识图谱里面包含城市和景点的信息,人工智能就能很快解决用户需求。

企业知识图谱的应用

当然,除了基于公共知识建立的知识图谱之外。还有很多属于企业自己,非公共的知识。对一个企业来说,这些知识当然也很重要。在这里,我们引入一个词汇“桶仓壁垒”。

什么是筒仓壁垒呢?筒仓就是很多工厂农场的仓库。一般工厂农场不会弄一个超大的仓库装所有东西,而是建很多统一规格的筒仓。这样便于管理,维修。筒仓对储存货物是个好事。但是数据筒仓,就不是好事了。一个企业会有很多部门,很多数据来源,这些数据很容易就分成很多独立的单位,互相之间很难沟通。就算有人想把它们合在一起,由于数据收集的方式,各部门之间的不统一,这种数据合成并不是一件容易的事情。而企业知识图谱就是用编写知识图谱上的技术积累去帮助一个企业建立它自己内部的知识图谱,打破这些数据筒仓,同时把这些数据转化成图谱的形式。这样更利于一个企业做它自己想要的敏捷开发和使用,例如建立一个以企业知识为基础的人工智能助理,或者其它深度应用。

例如在欧洲的一个大型能源公司内部,传统情况下,客户或者内部员工,都会通过他的网站进行一系列点击去做他们想做的事情。但是当我们把它的数据建成一个知识图谱后,就可以更好的运用这些数据了。例如当一个员工希望找到这样的数据:“最近3个月用电超过X度并且没有收到我们发的关于节能装置和电器广告的客户“。除非开发网站时就预判到了会有人提这样的问题,一般很难用传统的网站回答这样灵活的问题。但是这种问题用知识图谱就非常容易回答。而有了这样的工具,这个员工就能够更加高效的进行工作。

人工智能越发展,应用越广泛,知识图谱的核心基础地位就越凸显。用AI创建AI用的知识图谱,就是我们从目前的知其然,不断迈向知其所以然的一个必经之路。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180511G1IUGE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券