题目:知识图谱技术综述
作者:徐增林,盛泳潘,贺丽荣,王雅芳
摘 要
知识图谱技术是人工智能技术的重要组成部分,其建立的具有语义处理能力与开放互联能力的知识库,可在智能搜索、智能问答、个性化推荐等智能信息服务中产生应用价值。
该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的知识抽取、知识表示、知识融合、知识推理四大核心技术的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。
关 键 词:知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理
目录
0 导读
1 知识图谱的定义与架构
1.1 知识图谱的定义
1.2 知识图谱的架构
2 大规模知识库
2.1 开放链接知识库
2.2 垂直行业知识库
3 知识图谱的关键技术
3.1 知识抽取
3.2 知识表示
3.3 知识融合
3.4 知识推理
4 知识图谱的典型应用
4.1 智能搜索
4.2 深度问答
4.3 社交网络
4.4 垂直行业应用
5 知识图谱的挑战
5.1 知识获取
5.2 知识表示
5.3 知识融合
5.4 知识应用
6 结束语
7 参考文献
3.知识图谱的关键技术
前文回顾
3.1 知识抽取
3.1.1 实体抽取
1) 基于规则与词典的实体抽取方法
2) 基于统计机器学习的实体抽取方法
3) 面向开放域的实体抽取方法
3.1.2 关系抽取
1) 开放式实体关系抽取
2) 基于联合推理的实体关系抽取
3.1.3 属性抽取
3.2 知识表示
3.2.1 应用场景
1) 语义相似度计算
2) 链接预测
3.2.2 代表模型
1) 距离模型
2) 单层神经网络模型
3) 双线性模型
4) 神经张量模型
5) 矩阵分解模型
6) 翻译模型
3.2.3 复杂关系模型
1) TransH模型
2) TransR模型
3) TransD模型
4) TransG模型
5) KG2E模型
3.2.4 多源信息融合
正文开始
3.3 知识融合
为什么:
由于知识图谱中的知识来源广泛,存在质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。
是什么:
知识融合是高层次的知识组织[72],使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤[73],达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
3.3.1 实体对齐
实体对齐(entity alignment)也称为实体匹配(entity matching)或实体解析(entity resolution),主要是用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。
在大数据的环境下,受知识库规模的影响,在进行知识库实体对齐时,主要会面临以下3个方面的挑战[74]:
1) 计算复杂度。匹配算法的计算复杂度会随知识库的规模呈二次增长,难以接受;
2) 数据质量。由于不同知识库的构建目的与方式有所不同,可能 存在知识质量良莠不齐、相似重复数据、孤立数据、 数据时间粒度不一致等问题[75];
3) 先验训练数据。在大规模知识库中想要获得这种先验数据非常困难。通常情况下,需要研究者手工构造。
基于上述,知识库实体对齐的主要流程将包括[74]:
1) 将待对齐数据进行分区索引,以降低计算的复杂度;
2) 利用相似度函数或相似性算法查找匹配实例;
3) 使用实体对齐算法进行实例融合;
4) 将步骤2)与步骤3)的结果结合起来,形成最终的对齐结果。
对齐算法可分为成对实体对齐与集体实体对齐两大类,而集体实体对齐又可分为局部集体实体对齐与全局集体实体对齐。
1) 成对实体对齐方法 1 基于传统概率模型的实体对齐方法
基于传统概率模型的实体对齐方法主要就是考虑两个实体各自属性的相似性,而并不考虑实体间的关系。文献[76]将基于属性相似度评分来判断实体是否匹配的问题转化为一个分类问题,建立了该问题的概率模型,缺点是没有体现重要属性对于实体相似度的影响。文献[77]基于概率实体链接模型,为每个匹配的属性对分配了不同的权重,匹配准确度有所提高。文献[78]还结合贝叶斯网络对属性的相关性进行建模,并使用最大似然估计方法对模型中的参数进行估计。
2 基于机器学习的实体对齐方法
基于机器学习的实体对齐方法主要是将实体对齐问题转化为二分类问题。根据是否使用标注数据可分为有监督学习与无监督学习两类,基于监督学习的实体对齐方法主要可分为成对实体对齐、基于聚类的对齐、主动学习。
成对实体对齐:
通过属性比较向量来判断实体对匹配与否。典型代表有决策树 [79]、支持向量机[80]、集成学习[81]等。文献[82]使用分类回归树、线性分析判别等方法完成了实体辨析。文献[83]基于二阶段实体链接分析模型,提出了一种新的SVM分类方法,匹配准确率远高于TAILOR中的混合算法。
基于聚类的实体对齐算法:
将相似的实体尽量聚集到一起,再进行实体对齐。文献[84]提出了一种扩展性较强的自适应实体名称匹配与聚类算法,可通过训练样本生成一个自适应的距离函数。文献[85]采用类似的方法,在条件随机场实体对齐模型中使用监督学习的方法训练产生距离函数,然后调整权重,使特征函数与学习参数的积最大。
主动学习:
可通过与人员的不断交互来解决训练数据不足的问题,文献[86]构建的ALIAS系统可通过人机交互的方式完成实体链接与去重的任务。文献[87]采用相似的方法构建了Active Atlas系统。
2) 局部集体实体对齐方法
为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度[88],算法为每个实体建立了名称向量与虚拟文档向量,名称向量用于标识实体的属性, 虚拟文档向量则用于表示实体的属性值以及其邻居节点的属性值的加权和值[74]。为了评价向量中每个分量的重要性,算法主要使用TF-IDF为每个分量设置权重,并为分量向量建立倒排索引,最后选择余弦相似性函数计算它们的相似程度[74]。该算法的召回率较高,执行速度快,但准确率不足。其根本原因在于没有真正从语义方面进行考虑。
3) 全局集体实体对齐方法 1 基于相似性传播的集体实体对齐方法
基于相似性传播的方法是一种典型的集体实体对齐方法,匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性,而这种相似性又会影响关联的其他实体[74]。相似性传播集体实体对齐方法最早来源于文献[89-90]提出的集合关系聚类算法,该算法主要通过一种改进的层次凝聚算法迭代产生匹配对象。文献[91]在以上算法的基础上提出了适用于大规模知识库实体对齐的算法SiGMa,该算法将实体对齐问题看成是一个全局匹配评分目标函数的优化问题进行建模,属于二次分配问题,可通过贪婪优化算法求得其近似解。SiGMa方法[74]能够综合考虑实体对的属性与关系,通过集体实体的领域,不断迭代发现所有的匹配对。
2 基于概率模型的集体实体对齐方法
基于概率模型的集体实体对齐方法主要采用统计关系学习进行计算与推理,常用的方法有LDA模型[92]、CRF模型[93]、Markov逻辑网[94]等。文献[92]将LDA模型应用于实体的解析过程中,通过其中的隐含变量获取实体之间的关系。但在大规模的数据集上效果一般。文献[85]提出了一种基于图划分技术的CRF实体辨析模型,该模型以观察值为条件产生实体判别的决策,有利于处理属性间具有依赖关系的数据。文献[93]在CRF实体辨析模型的基础上提出了一种基于条件随机场模型的多关系的实体链接算法,引入了基于canopy的索引,提高了大规模知识库环境下的集体实体对齐效率。文献[94]提出了一种基于Markov逻辑网的实体解析方法。通过Markov逻辑网,可构建一个Markov网,将概率图模型中的最大可能性计算问题转化为典型的最大化加权可满足性问题,但基于Markov网进行实体辨析时,需要定义一系列的等价谓词公理,通过它们完成知识库的集体实体对齐。
3.3.2 知识加工
通过实体对齐,可以得到一系列的基本事实表达或初步的本体雏形,然而事实并不等于知识,它只是知识的基本单位。要形成高质量的知识,还需要经过知识加工的过程,从层次上形成一个大规模的知识体系,统一对知识进行管理。知识加工主要包括本体构建与质量评估两方面的内容。
1) 本体构建
本体是同一领域内不同主体之间进行交流、连通的语义基础[95],其主要呈现树状结构,相邻的层次节点或概念之间具有严格的“IsA”关系,有利于进行约束、推理等,却不利于表达概念的多样性。本体在知识图谱中的地位相当于知识库的模具,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小[96]。
本体可通过人工编辑的方式手动构建,也可通过数据驱动自动构建,然后再经质量评估方法与人工审核相结合的方式加以修正与确认[12]。在海量的实体数据面前,人工编辑构建的方式工作量极其巨大,故当前主流的本体库产品,都是面向特定领域, 采用自动构建技术而逐步扩展形成的。例如Microsoft的Probase本体库就是采用数据驱动的方法,利用机器学习算法从网页文本中抽取概念间的 “IsA”关系,然后合并形成概念层次结构。目前,Probase所包含的概念总数已达到千万级别,准确率 高达92.8%,是目前为止包含概念数量最多,同时也是概念可信程度最高的知识库[97]。
数据驱动的本体自动构建过程主要可分为以下3个阶段[98]:
1 纵向概念间的并列关系计算。通过计算任意2个实体间并列关系的相似度,可辨析它们 在语义层面是否属于同一个概念。计算方法主要包括模式匹配与分布相似度两种[12,99]。
2 实体上下位关系抽取。上下位关系抽取方法包括基于语法的抽取与基于语义的抽取两种方式,例如目前主流的信息抽取系统KnowltAll[38]、TextRunner[37]、NELL[100]等,都可以在语法层面抽取实体的上下位关系,而Probase则是采用基于语义的抽取模式[101]。
3 本体生成。对各层次得到的概念进行聚类,并为每一类的实体指定1个或多个公共上位词。文献[102]基于主题层次聚类的方法构建了本体结构。与此同时,为了解决主题模型不适用于短文本的问题,提出了基于单词共现网络的主题聚类与上下位词抽取模型。
2) 质量评估
对知识库的质量评估任务通常是与实体对齐任务一起进行的,其意义在于可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效确保知识的质量。文献[103]基于LDIF框架,提出了一种新的知识质量评估方法,用户可根据业务需求来定义质量评估函数,或者通过对多种评估方法的综合考评来确定知识的最终质量评分。例如在对REVERRB系统的信息抽取质量进行评估时,文献[104]采用人工标注的方式对1 000个句子中的实体关系三元组进行了标注,并以此作为训练集,使用logistic回归模型计算抽取结果的置信度。例如Google的Knowledge Vault项目则根据指定数据信息的抽取频率对信息的可信度进行评分,然后利用从可信知识库中得到的先验知识对可信度进行修正。实验结果表明:该方法可以有效地降低对数据信息正误判断的不确定性,提高知识的质量[105]。
3.3.3 知识更新
人类的认知能力、知识储备以及业务需求都会随时间而不断递增。因此,知识图谱的内容也需要与时俱进,不论是通用知识图谱,还是行业知识图谱,它们都需要不断地迭代更新,扩展现有的知识,增加新的知识。根据知识图谱的逻辑结构,其更新主要包括模
式层的更新与数据层的更新。
模式层的更新是指本体中元素的更新,包括概念的增加、修改、删除, 概念属性的更新以及概念之间上下位关系的更新等。其中,概念属性的更新操作将直接影响到所有直接或间接属性的子概念和实体[106]。通常来说,模式层的增量更新方式消耗资源较少,但是多数情况下是在人工干预的情况下完成的,例如需要人工定义规则,人工处理冲突等。因此,实施起来并不容易[107]。数据层的更新指的是实体元素的更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值。由于数据层的更新一般影响面较小,因此通常以自动的方式完成。
3.4 知识推理
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。在推理的过程中,往往需要关联规则的支持。由于实体、实体属性以及关系的多样性,人们很难穷举所有的推理规则,一些较为复杂的推理规则往往是手动总结的。对于推理规则的挖掘,主要还是依赖于实体以及关系间的丰富同现情况。知识推理的对象可以是 实体、实体的属性、实体间的关系、本体库中概念的层次结构等。
知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别。
3.4.1 基于逻辑的推理
基于逻辑的推理方式主要包括一阶谓词逻辑(first order logic)、描述逻辑(description logic)以及规则等。
一阶谓词逻辑推理:是以命题为基本进行推理,而命题又包含个体和谓词。逻辑中的个体对应知识库中的实体对象,具有客观独立性,可以是具体一个或泛指一类,例如奥巴马、选民等;谓词则描述了个体的性质或个体间的关系。文献[108]针对已有一阶谓词逻辑推理方法中存在的推理效率低下等问题,提出了一种基于谓词变迁系统的图形推理法, 定义了描述谓词间与/或关系的谓词,通过谓词图表示变迁系统,实现了反向的推理目标。实验结果表明:该方法推理效率较高,性能优越。
描述逻辑:是在命题逻辑与一阶谓词逻辑上发展而来,目的是在表示能力与推理复杂度之间追求一种平衡。基于描述逻辑的知识库主要包括Tbox (terminology box)与ABox(assertion box)[109]。通过TBox与ABox,可将关于知识库中复杂的实体关系推理转化为一致性的检验问题,从而简化并实现推理[110]。
通过本体的概念层次进行推理时,其中概念主要是通过OWL(Web ontology language)本体语义进行描述的。OWL文档可以表示为一个具有树形结构的状态空间,这样一些对接结点的推理算法就能够较好地应用起来,例如文献[111]提出了基于RDF和PD*语义的正向推理算法,该算法以RDF蕴涵规则为前提,结合了sesame算法以及PD*的语义,是一个典型的迭代算法,它主要考虑结点与推理规则的前提是否有匹配,由于该算法的触发条件导致推理的时间复杂度较高,文献[112]提出了ORBO算法,该 算法从结点出发考虑,判断推理规则中第一条推理关系的前提是否满足,不仅节约了时间,还降低了算法的时间复杂度。
3.4.2 基于图的推理
在基于图的推理方法中,文献[113]提出的path-constraint random walk,path ranking等算法较为典型,主要是利用了关系路径中的蕴涵信息,通过图中两个实体间的多步路径来预测它们之间的语义关系。即从源节点开始,在图上根据路径建模算法进行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系。关系路径的建模方法研究工 作尚处于初期,其中在关系路径的可靠性计算、关系路径的语义组合操作等方面,仍有很多工作需进一步探索并完成。
除上述两种类别的知识推理方法外,部分研究人员将研究重点转向跨知识库的推理方法研究,例如文献[75]提出的基于组合描述逻辑的Tableau算法,该方法主要利用概念间的相似性对不同知识库中的概念进行关联、合并,通过已有的知识完成跨知识库的推理。
4. 知识图谱的典型应用
知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。目前,知识图谱已在智能搜索、 深度问答、社交网络以及一些垂直行业中有所应用, 成为支撑这些应用发展的动力源泉。
4.1 智能搜索
基于知识图谱的智能搜索是一种基于长尾的搜索,搜索引擎以知识卡片的形式将搜索结果展现出 来。用户的查询请求将经过查询式语义理解与知识检索两个阶段:
1) 查询式语义理解。知识图谱对查 询式的语义分析主要包括:1 对查询请求文本进行 分词、词性标注以及纠错;2 描述归一化,使其与 知识库中的相关知识进行匹配[114];3 语境分析。在不同的语境下,用户查询式中的对象会有所差别, 因此知识图谱需要结合用户当时的情感,将用户此 时需要的答案及时反馈给用户;4 查询扩展。明确 了用户的查询意图以及相关概念后,需要加入当前 语境下的相关概念进行扩展。
2) 知识检索。经过查 询式分析后的标准查询语句进入知识库检索引擎, 引擎会在知识库中检索相应的实体以及与其在类别、关系、相关性等方面匹配度较高的实体[115]。通 过对知识库的深层挖掘与提炼后,引擎将给出具有 重要性排序的完整知识体系。
智能搜索引擎主要以3种形式展现知识:
1) 集成的语义数据。例如当用户搜索梵高,搜索引擎将 以知识卡片的形式给出梵高的详细生平,并配合以 图片等信息;
2) 直接给出用户查询问题的答案。例 如当用户搜索“姚明的身高是多少?”,搜索引擎的 结果是“226 cm”;
3) 根据用户的查询给出推荐列表[7]等。
国外的搜索引擎以谷歌的Google Search[6]、微软的Bing Search[116]最为典型。谷歌的知识图谱相继融入了维基百科、CIA世界概览等公共资源以及从其 他网站搜集、整理的大量语义数据[117],微软的Bing Search[116]和Facebook[117]、Twitter[118]等大型社交服务站点达成了合作协议,在用户个性化内容的搜集、定制化方面具有显著的优势。
国内的主流搜索引擎公司,如百度、搜狗等相继将知识图谱的相关研究从概念转向产 品应用。搜狗的知立方[119]是国内搜索引擎行业的第一款知识图谱产品,它通过整合互联网上的碎片化语义信息,对用户的搜索进行逻辑推荐与计算,并将最核心的知识反馈给用户。百度将知识图谱命名 为知心[120],主要致力于构建一个庞大的通用型知识 网络,以图文并茂的形式展现知识的方方面面[7]。
4.2 深度问答
问答系统是信息检索系统的一种高级形式,能 够以准确简洁的自然语言为用户提供问题的解答。之所以说问答是一种高级形式的检索,是因为在问答系统中同样有查询式理解与知识检索这两个重要的过程,并且与智能搜索中相应过程中的相关细节是完全一致的。多数问答系统更倾向于将给定的问 题分解为多个小的问题,然后逐一去知识库中抽取 匹配的答案,并自动检测其在时间与空间上的吻合 度等,最后将答案进行合并,以直观的方式展现给 用户。
目前,很多问答平台都引入了知识图谱,例如 华盛顿大学的Paralex系统[121]和苹果的智能语音助手Siri[122],都能够为用户提供回答、介绍等服务; 亚马逊收购的自然语言助手Evi[123],语音识别技术,采 提供类似Siri的服务。国内百度公司研发的小度机器人[124],天津聚问网络技术服务中心 开发的大型在线问答系统OASK[125],专门为门户、 企业、媒体、教育等各类网站提供良好的交互式问答解决方案。
4.3 社交网络
社交网站Facebook于2013年推出了Graph Search[126]产品,其核心技术就是通过知识图谱将人、 地点、事情等联系在一起,并以直观的方式支持精确的自然语言查询,例如输入查询式:“我朋友喜欢的餐厅”“住在纽约并且喜欢篮球和中国电影的朋友”等,知识图谱会帮助用户在庞大的社交网络中 找到与自己最具相关性的人、照片、地点和兴趣等[7]。Graph Search提供的上述服务贴近个人的生活,满足了用户发现知识以及寻找最具相关性的人的需求。
4.4 垂直行业应用
1) 金融行业
在金融行业中,反欺诈是一个重要的环节。它的难点在于如何将不同税务子系统中的数据整合在一起。通过知识图谱,一方面有利于组织相关的知识碎片,通过深入的语义分析与推理,可对信息内容的一致性充分验证,从而识别或提前发现欺诈行 为;另一方面,知识图谱本身就是一种基于图结构的关系网络,基于这种图结构能够帮助人们更有效地分析复杂税务关系中存在的潜在风险[127]。在精准营销方面,知识图谱可通过链接的多个数据源,形成对用户或用户群体的完整知识体系描述,从而更好地去认识、理解、分析用户或用户群体的行为。例如,金融公司的市场经理用知识图谱去分析待销售用户群体之间的关系,去发现他们的共同爱好, 从而更有针对性地对这类用户人群制定营销策略[127]。
2) 医疗行业
耶鲁大学拥有全球最大的神经科学数据库Senselab[128],然而,脑科学研究还需要综合从微观 分子层面一直到宏观行为层面的各个层次的知识。因此,耶鲁大学的脑计划研究人员将不同层次的,与脑研究相关的数据进行检索、比较、分析、整合、 建模、仿真,绘制出了描述脑结构的神经网络图谱,从而解决了当前神经科学所面临的海量数据问题,从微观基因到宏观行为,从多个层次上加深了人类对大脑的理解,达到了“认识大脑、保护大脑、创造大脑”的目标。
4) 电商行业
电商网站的主要目的之一就是通过对商品的文字描述、图片展示、相关信息罗列等可视化的知识展现,为消费者提供最满意的购物服务与体验。通过知识图谱,可以提升电商平台的技术性、易用性、 交互性等影响用户体验的因素[129]。阿里巴巴是应用知识图谱的代表电商网站之 一,它旗下的一淘网不仅包含了淘宝数亿的商品, 更建立了商品间关联的信息以及从互联网抽取的相 关信息,通过整合所有信息,形成了阿里巴巴知识 库和产品库,构建了它自身的知识图谱[7,130]。当用 户输入关键词查看商品时,知识图谱会为用户提供 此次购物方面最相关的信息,包括整合后分类罗列 的商品结果、使用建议、搭配等[7,130]。
除此之外,另外一些垂直行业也需要引入知识图谱,如教育科研行业、图书馆、证券业、生物医疗以及需要进行大数据分析的一些行业[131]。这些行业对整合性和关联性的资源需求迫切,知识图谱可 以为其提供更加精确规范的行业数据以及丰富的表达,帮助用户更加便捷地获取行业知识[7]。
4) 电商行业
电商网站的主要目的之一就是通过对商品的文 字描述、图片展示、相关信息罗列等可视化的知识 展现,为消费者提供最满意的购物服务与体验。通 过知识图谱,可以提升电商平台的技术性、易用性、 交互性等影响用户体验的因素[129]。
阿里巴巴是应用知识图谱的代表电商网站之 一,它旗下的一淘网不仅包含了淘宝数亿的商品, 更建立了商品间关联的信息以及从互联网抽取的相 关信息,通过整合所有信息,形成了阿里巴巴知识 库和产品库,构建了它自身的知识图谱[7,130]。当用 户输入关键词查看商品时,知识图谱会为用户提供 此次购物方面最相关的信息,包括整合后分类罗列 的商品结果、使用建议、搭配等[7,130]。
除此之外,另外一些垂直行业也需要引入知识 图谱,如教育科研行业、图书馆、证券业、生物医 疗以及需要进行大数据分析的一些行业[131]。这些行 业对整合性和关联性的资源需求迫切,知识图谱可 以为其提供更加精确规范的行业数据以及丰富的表 达,帮助用户更加便捷地获取行业知识[7]。
5.知识图谱的挑战
知识图谱技术是对语义网标准与技术的一次扬弃与升华。自Google提出之初至今,其热度依然有增无减,并随着深度学习、类脑科学等领域的发展,有逐步演进并发展为智能机器的大脑知识库之趋势。
在关注到知识图谱在自然语言处理、人工智能 等领域展现巨大潜力的同时,也不难发现知识图谱 中的知识获取、知识表示、知识推理等技术依然面 临着一些困难与挑战,很多重要的开放问题急待学 术界与工业界协力来解决。在未来的几年时间内, 知识图谱仍将是大数据智能的前沿研究问题。
5.1 知识获取
知识抽取是知识图谱组织构建、进行问答检索的主要任务,对于深层语义的理解以及处理具有重 要的意义。一些传统的知识元素(实体、关系、属性)抽取技术与方法,它们在限定领域、主题的数据集 上获得了较好的效果,但由于制约条件较多,方法的可扩展能力不够强,未能很好地适应大规模、领 域独立、高效的开放式信息抽取要求。目前,基于大规模开放域的知识抽取研究仍处于起步阶段,尚需研究者努力去攻关开垦。
KnowItAll、TextRunner、WOE、ReVerb、R2A2、KPAKEN这些系统已为开放域环境下,实体关系抽取中的二元关系抽取、n元关系抽取发展开创了先河,具有广阔的研究前景。再者,对于隐含关系的抽取,目前主流的开放式信息抽取方法性能低下或尚无法实现。因此,以马尔可夫逻辑网、本体推理的联合推理方法将成为学术界的研究热点。联合推理方法不仅能够推断文本语料所不能显示的深层隐含信息,还能够综合信息抽取各阶段的子任务,像杠杆一样在各方面之间寻求平衡,以趋向整体向上的理想效果[37],为大规模开放域下的知识抽取提供 了一种新的思路。
除上述外,跨语言的知识抽取方法也成为了当前的研究热点,对于我国的研究者而言,更应发挥自身在中文信息处理方面的天然优势,面对挑战与机遇,做出应有的贡献。
5.2 知识表示
知识表示对知识图谱的构建、推理、融合以及应用均具有重要的意义。目前存在的表示方式仍是基于三元组形式完成的语义映射,在面对复杂的知识类型、多源融合的信息时,其表达能力仍然有限。 因此有研究者提出,应针对不同的应用场景设计不同的知识表示方法。下面将具体说明知识表示在复杂关系、多源信息融合中遇到的挑战以及未来的研究方向。
1) 复杂关系中的知识表示
已有的工作将知识库中的实体关系类型分为1-to-1、1-to-N、N-to-1、N-to-N这4种,这种划分方法无法直观地解释知识的本质类型特点,也无法更有针对性地表示复杂关系中的知识。但发现分布式的知识表示方法来源于认知科学,具有灵活的可扩展能力。基于上述,对认知科学领域人类知识类型的探索将有助于知识类型的划分、表示以及处理, 是未来知识表示研究的重要发展方向。
2) 多源信息融合中的知识表示
对于多源信息融合中的知识表示研究尚处于起步阶段,涉及的信息来源也极为有限,已有的少数工作都是围绕文本与知识库的融合而展开的。另外,文献[132]将注意力转向面向关系表示的多源信息融 合领域,并已在CNN上进行了一定的实现。在知识 融合表示中,融合是最关键的前期步骤,如能有机 的融合多源异质的实体、关系等信息,将有利于进 一步提升知识表示模型的区分能力以及性能。基于实体的、关系的、Web文本的、多知识库的融合均具有较为广阔的研究前景。
5.3 知识融合
知识融合对于知识图谱的构建、表示均具有重要的意义。实体对齐是知识融合中的关键步骤,虽然相关研究已取得了丰硕的成果,但仍有广阔的发展空间。下面将具体说明实体对齐在大规模知识库环境下所遇到的挑战以及未来的研究方向。
1) 并行与分布式算法
大规模的知识库不仅蕴含了海量的知识,其结构、数据特征也极其复杂,这些对知识库实体对齐算法的准确率、执行效率提出了一定的挑战。目前, 不少研究者正着力研究对齐算法的并行化或分布式版本,在兼顾算法准确率与召回率的同时,将进一步利用并行编程环境MPI,分布式计算框架Hadoop、Spark等平台,提升知识库对齐的整体效果。
2) 众包算法
人机结合的众包算法可以有效地提高知识融合的质量[74]。众包算法的设计讲求数据量、知识库对齐质量以及人工标注三者的权衡。将众包平台与知识库对齐模型有机结合起来,并且能够有效判别人工标注的质量,这些均具有较为广阔的研究前景[74]。
3) 跨语言知识库对齐
多语言的知识库越来越多,多语言知识库的互补能力将为知识图谱在多语言搜索、问答、翻译等领域的实际应用提供更多的可能。文献[133]已在这方面取得了一定的进展,但知识库对齐的质量不高, 这方面仍有广阔的研究空间。
知识加工是形成高质量知识的重要途径,其中本体自动构建、本体抽取、本体聚类等问题是目前的研究热点。在知识质量评估方面,构建完善的质量评估技术标准或指标体系是该领域未来的研究目标。随着人类认知能力、知识储备以及业务需求的 不断递增,知识图谱也需要不断地迭代更新。然而 现有的更新技术均过多依赖于人工的干预,增量更 新技术将是知识图谱未来实现自动化更新的重要研 究方向。如何确保自动化更新的有效性,是更新过程中面临的又一重大挑战。
5.4 知识应用
目前,大规模知识图谱的应用场景和方式还比较有限,其在智能搜索、深度问答、社交网络以及 其他行业中的使用也只是处于初级阶段,仍具有广 阔的可扩展空间。人们在挖掘需求、探索知识图谱的应用场景时,应充分考虑知识图谱的以下优势:
1) 对海量、异构、动态的半结构化、非结构化数据 的有效组织与表达能力;
2) 依托于强大知识库的深 度知识推理能力;
3) 与深度学习、类脑科学等领域 相结合,逐步扩展的认知能力。
在对知识图谱技术 有丰富积累的基础上,敏锐的感知人们的需求,可为大规模知识图谱的应用找到更宽广、更合适的应用之道。
6. 结束语
本文在对知识图谱的定义、架构、大规模知识库等全面阐述的基础上,较为深入地研究了知识图谱中知识抽取、知识表示、知识融合以及知识推理4大核心技术,并就当前产业界的需求介绍了它在智能搜索、深度问答、社交网络以及一些垂直行业中的实际应用。总结了目前知识图谱面临的主要挑战, 并对其未来的研究方向进行了展望。
知识图谱的重要性不仅在于它是一个拥有强大 语义处理能力与开放互联能力的知识库,并且它还 是一把开启智能机器大脑的钥匙,能够打开Web 3.0时代的知识宝库,为相关学科领域开启新的发展方向。
在未来的几年时间内,知识图谱仍将是大数据 智能的前沿研究问题。期待更多的研究者能够加入到知识图谱研究的行列中来,也希望本文能够为知 识图谱技术在国内的研究发展提供一些帮助。
7.参考文献
[1] SHETH A, THIRUNARAYAN K. Semantics empowered Web 3.0:managing enterprise, social, sensor, and cloud-based data and service for advanced applications[M]. San Rafael, CA: Morgan and Claypool, 2013.
[2] 王知津, 王璇, 马婧. 论知识组织的十大原则[J]. 国家图 书馆学刊, 2012, 21(4): 3-11.
WANG Zhi-jin, WANG Xuan, MA Jing. The ten principles of knowledge organization[J]. Journal of The National Library of China, 2012, 21(4): 3-11.
[3] 索传军. 网络信息资源组织研究的新视角[J]. 图书馆情 报工作, 2013, 57(7): 5-12.
SUO Chuan-jun. A new perspective for web resource organization research[J]. Library and Information Service, 2013, 57(7): 5-12.
[4] 钟翠娇. 网络信息语义组织及检索研究[J]. 图书馆学研 究, 2010, 75(17): 68-71.
ZHONG Cui-jiao. Research on semantic organization of web information and retrieval[J]. Research on Library Science, 2010, 75(17): 68-71.
[5] BERNERS-LEE T, HENDLER J, LASSILA O. The semantic Web[J]. Scientific American Magazine, 2008, 23(1): 1-4.
[6] AMIT S. Introducing the knowledge graph[R]. America: Official Blog of Google, 2012.
[7] 曹倩, 赵一鸣. 知识图谱的技术实现流程及相关应用[J]. 情报理论与实践(ITA), 2015, 12(38): 127-132.
CAO Qian, ZHAO Yi-ming. The realization process and related applications of knowledge graph[J]. Information Studies: Theory & Application(ITA), 2015, 12(38): 127- 132.
[8] Wikipedia. Knowledge graph[EB/OL]. [2016-05-09]. https://en.wikipedia.org/wiki/Knowledge_Graph.
[9] Shenshouer. Neo4j[EB/OL]. [2016-05-09]. http://neo4j. com/.
[10] FlockDB Official. FlockDB[EB/OL]. [2016-05-09]. http:// webscripts.softpedia.com/script/Database-Tools/FlockDB- 66248.html.
[11] Graphdb Official. Graphdb[EB/OL]. [2016-05-09]. http:// www.graphdb.net/.
[12] 刘峤, 李杨, 杨段宏, 等. 知识图谱构建技术综述[J]. 计 算机研究与发展, 2016, 53(3): 582-600.
LIU Qiao, LI yang, YANG Duan-hong, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600.
[13] DONG X, GABRILOVICH E, HEITZ G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]//Proc of the 20th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2014.
[14]BIZER C, Al E. Linked data-the story so far[J]. International Journal on Semantic Web & Information System, 2009, 5(3): 1-22.
[15] BOLLACKER K, COOK R, TUFTS P. Freebase: a shared
database of structured general human knowledge[C]//Proc of the 22nd AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2007: 1962-1963.
[16] WMF. Wikidata[EB/OL]. [2015-11-11]. https://www. wikidata.org/wiki/Wikidata:Main_Page.
[17] Wikipedia. Data revolution for Wikipedia[EB/OL]. (2012-03-30). https://www.wikimedia.org/.
[18]BIZER C, LEHMANN J, KOBILAROV G, et al. DBpedia—a crystallization point for the Web of data[J]. Web Semantics Science Services & Agents on the World Wide Web, 2009, 7(3): 154-165.
[19] SUCHANEK F M, KASNECI G, WEIKUM G. YAGO: a large ontology from wikipedia and wordnet[J]. Web Semantics Science Services & Agents on the World Wide Web, 2007, 6(3): 203-217.
[20] MILLER G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.
[21] MAEDCHE A, STAAB S. The text-to-onto ontology learning environment[C]//Software Demonstration at ICCS-2000-Eight International Conference on Conceptual Structures. [S.l.]: [s.n.], 2000.
[22] IMDB Official. IMDB[EB/OL]. [2016-02-27]. http://www. imdb.com.
[23] 百度百科. IMDB[EB/OL]. [2016-02-27]. http://baike. baidu.com/view/785720.htm?fromtitle=IMDB&fromid=92 5061&type=syn.
Baidu Bake. IMDB[EB/OL]. [2016-02-27]. http://baike. baidu.com/view/785720.htm?fromtitle=IMDB&fromid=92 5061&type=syn.
[24] MetaBrainz Foundation. Musicbrainz[EB/OL]. [2016-06- 06]. http://musicbrainz.org/.
[25]全球网站库. Musicbrainz[EB/OL]. (2013-05-20). http:// www.0430.com/us/web7028.
Global Web Sites. Musicbrainz[EB/OL]. (2013-05-20). http://www.0430.com/us/web7028.
[26] OSCHINA. ConceptNet[EB/OL]. http://www.oschina.net/p/conceptnet.
[27] CONCEPTNET5. ConceptNet5[EB/OL]. http://conceptnet5.media.mit.edu/.
[2016-01-09].
[2014-04-06].
[28] 孙镇, 王惠临. 命名实体识别研究进展综述[J]. 现代图 书情报技术, 2010(6): 42-47.
SUN Zhen, WANG Hui-lin. Overview on the advance of the research on named entity recognition[J]. New Technology of Library and Information Service, 2010(6): 42-47.
更多参考文献请参见原文
作者:徐增林,盛泳潘,贺丽荣,王雅芳
编辑:西柚媛
本文来自程序媛驿站,未经授权不得转载.