首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当知识图谱遇到深度学习

知识图谱是最近人工智能界一个火热的概念,无论是学术界还是创投圈,但凡是与非结构化文本的分析和处理相关的个人和团队,不宣称自己懂一些或是有一些知识图谱的技术,仿佛就是远远落后于时代。

(1)什么是知识图谱

知识图谱就是将特定行业,场景下的独立知识点或知识集合,按照指定的关联关系,进行系统化的整合呈现。

例如,医疗行业中,可能的知识集合,包括:医院,医生,医嘱,患者,病症,诊断结果等,显然,根据它们之间是有关联关系的,那么根据这种关联关系,就能形成特有的网状结构,或称知识图谱。

(2)知识图谱的兴起

知识图谱的提出,最开始是为了满足以近似性相关性为主的检索,提高到能针对语义做一些精准匹配和浏览的层次。最典型的,我们搜索“感冒”,系统只会简单的查找“感冒”这个词,并不知道还应该同时去匹配“着凉”或是“流感”等其它同义词。

而在人工智能火热的今天,很多人对信息消费的质量需求,已经超越了搜索引擎那种以免费形式提供一个大多数用户可以接受的,与查询近似相关的文档集合的层次。这种精准的信息消费,使得知识图谱的重要性尤其突出。因为各个垂直领域都在试图建立行业人工智能,都需要基于数据提炼出机器智能或者识别人机交互话语中的知识结构,他们忽然发现,必须从数不清的文档中抽取无穷尽的知识点,并识别它们之间的关系,以进行精准的推理和预测,这使得对知识图谱技术的需求忽然一下子被引爆了。此时,建立知识图谱的目标是为了理解数据的语义,尤其是各行各业具体应用场景中的文本含义,来建立基于数据的智能。

(3)什么是深度学习

深度学习可以视为“用深度神经网络来做机器学习”的简称。神经网络并不是一个新的概念,笔者十五年前研究生在读期间就选修了这样的课程,它是一种机器学习的方法,用类似于大脑神经突触联接的结构进行信息处理的数学模型,用来做分类和聚类。但是受硬件计算能力的约束,虽然卷积神经网络发布的时间较早,一直到2006年Hilton解决它的训练问题之后才焕发生机,尤其是2014年以来才大面积的使用,特别是在计算机视觉和听觉领域里大放异彩。

在自然语言处理技术的一些传统领域,深度学习算法,主要是循环神经网络RNN及其变种长短期记忆网络LSTM等,在一些与时间序列有关的文本处理中,表现卓越。例如,深度学习在中文分词、实体抽取、机器翻译、文档摘要、多轮会话等方向,表现出了强大的能力。但凡是可以转变为通过对历史时间序列分析建模,然后用来对新数据进行分类预测的问题,例如中文分词和实体抽取,能转变为对文本中的每一个汉字角色进行分类,在有足够数据积累和训练语料的地方,深度学习都能以简单粗暴高效的方式,效果上碾压之前的技术手段。

在和文本语义理解相关的一些特定场合,只要有了足够的训练数据,深度学习通常都能大放异彩。以我们所开发的的一款数据治理产品为例。很多场合都需要大量不同的人群来填报表格,录入一些不规范的文本,如经销商录入商品名称规格和下一级经销商/终端客户的名称,信用卡申请者录入自己的工作单位和家庭住址,等等。当这种人工填写录入缺乏主数据标准、且录入者数量众多时,就会出现数据语义无法对齐,需要大量后续人工处理的困难,需要数据治理的产品来解决。比如信用卡申请用户填写的工作单位名称极有可能与银行风控模型中的单位标准名称不同,例如“解放军总医院”可能被写为“解放军三零一医院”或是“301医院海南分院”,等等。这种判断两条不同的文本记录在语义上是否为同一条的问题,深度学习可以达到非常好的精度效果。

(4)知识图谱+深度学习

尽管深度学习在很多领域都成绩斐然,但目前在知识图谱领域却进展有限。近两年的人工智能国际顶级会议论文中,有一些工作试图用深度学习来挖掘知识点的上下位等关系,或者智能的识别语义本体,但都还停留在探索阶段,效果有限。究其原因,可能有三个方面:

一是知识图谱涉及各行各业各场景,不像语音、图像和视频那样,可以在一个相对单一的维度来定义问题,然后积累足够的数据以进行训练和预测;

二是缺少实用有效的通用知识建模和计算方法,来在各行各业各场景中,从历史文本中抽取知识点和细化积累知识,为深度学习发挥威力建立基础;

三是各种原因导致深度学习相比于CRF等已有的机器学习方法,没有带来足够的精度和召回率上的技术进步,来引爆一个产品在应用层面的巨大需求,进而加速这个方向的技术研发迭代。举例来说,安防领域的视频处理,因为国家投入了很多经费,所以催生了这个领域的技术更新。

在我们的工作中,自主研发的TML认知计算平台建立坚实的工程基础,使我们能够结合知识图谱和深度学习来解决问题:一方面,TML文本挖掘语言提供了一套通用的语义建模和知识计算方法,快速高效的在各场景建立知识图谱开展认知推理;另一方面,基于TML积累的各行各业的知识图谱,为深度学习解决了冷启动的难题。我们将深度学习用于以下地方:

(1)基于上下文环境以自动的方式对知识进行抽取,结合LSTM与CRF来实现,也就是将知识的抽取视为根据文字上下文对文字所扮演概念的角色做序列标注的问题;

(2)自动生成TML的代码,预测知识点之间的各种关系,包括挖掘概念之间的生成关系和上下文关系、同义关系等。这些都是深度学习擅长的领域,实际的效果也非常好。

在可以预见的将来,基于通用的知识图谱引擎和技术框架,使用深度学习来优化已有的知识体系中不准、不全和不够灵活的地方,为各行各业输出知识图谱建设和知识推理能力,将会大概率地成为现实。在这样一个大的平台中,不同行业的知识按照统一的方式和规范被积累和沉淀,知识体系与深度学习相互融合促进,会使得行业智能逐渐提高;平台之上,行业专家和技术专家分工清晰,重复性的脑力工作将完全被深度学习所取代。这将带来人工智能美好的前景。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180329A17O9800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券