“科学知识图谱”与“Google知识图谱”比较分析(二)

3 两类知识图谱的联系

两类知识图谱都是以图(Graph)为基础构建网络模型,在网络分析的基础上服务于知识管理,所有网络分析的现存的理论和方法都可以应用于两类知识图谱的分析,在这些方法中,具有代表性的是网络聚类分析和可视化分析方法。

3.1 网络聚类分析 聚类分析是将分析对象根据彼此之间的亲疏关系或相似程度分成不同的类群,密切关联或相似程度高的对象归到同一类群。对于“科学知识图谱”,如共词分析过程中,将学科或主题中的关键词作为分析对象,利用网络模型中词与词之间的亲疏关系,应用聚类分析,发现隐藏的密切关联的类群,从而揭示学科或主题的结构与演化规律。对于“Google知识图谱”,为构建统一的结构化知识库,需要对含义相同但表述不同的实体归一化,即实体消歧或实体对齐过程,具体过程如下:以实体对象为聚类中心,利用空间向量模型等方法定义实体对象之间的相似度,应用聚类方法,分析不同表述的实体的相似程度,将相似程度高的那些实体归并为同一实体对象,并分配全局唯一标识,完成实体消歧和对齐。

3.2 网络可视化分析 网络可视化将复杂网络数据以清晰的网络视图展现出来,帮助研究者洞察其中隐藏的知识和规律。“科学知识图谱”能够利用相关可视化工具,如CiteSpace[12]显示节点之间的关系,找出具有重要地位的文献、作者、学科和群体,绘出网络视图,构建显示知识关系的知识地图等。“Google知识图谱”基于知识库中的语义网络模型,构建出基于图的大规模网络,应用网络可视化分析工具发现海量实体中蕴含的创新型知识并绘图展示。

4 大数据环境下两类知识图谱的应用分析

随着资源数字化进程的急速推进,众多领域的数字资源具有数据增加迅速,总数据量大,种类繁多且价值密度低等大数据特征,这将会给两类知识图谱在知识管理各阶段的相互关系及未来发展产生明显影响。

4.1 知识获取和组织阶段的相互借鉴 “科学知识图谱”的数据一般依赖于现成的数据库获取知识,并在此基础上构建网络模型组织知识。海量数据下,特别是关联数据技术(Linked Open Data,LOD)已成为数据库技术发展的潮流,借助多种数据库关联,能更加全面地融合各种知识和产生创新型知识。因此借鉴“Google知识图谱”的理念,从互联网和云计算系统中收集数据,以及关联多种异构数据库来构建知识库,是大数据时代“科学知识图谱”获取知识的重要手段;另一方面,在社会网络建模过程中,融入语义网的构建方法,在不同的节点间嵌入强语义关联,能够使得社会网络具有推理能力,实现网络分析的智能化。

“Google知识图谱”可以借鉴“科学知识图谱”中的社会网络分析方法,如中心性、凝聚子群和核心—边缘结构等方法,从上述多个角度分析语义网实体之间的结构和关系,从而有利于全面解析语义网络的特征。

4.2 知识存储和共享阶段的各自发展 “科学知识图谱”区别于“Google知识图谱”重要功能在于能通过网络分析发现社团和社团中的关键人物,基于网络路径分析方法实现社团中成员的知识共享。大数据环境下,社团规模急剧扩大,可以达到百万以上的级别。大规模社会网络分析对计算机硬件以及相关算法的性能将提出更高的要求,可以预见,基于分布式计算机集群的云计算技术将会成为“科学知识图谱”大规模网络分析的主要手段。

“Google知识图谱”则需要建立知识库,以存储海量的结构化语义网知识。基于分布式存储技术以取得更大存储容量,另外优化分布式数据库的增、删、改、查以获取更优的管理性能是当前需要迫切解决的问题,代表技术如Hadoop平台上的分布数据库NoSQL技术等。

4.3 知识创新阶段的深度融合 应用数据挖掘算法从网络中发现知识是知识创新的重要手段,由于两类知识图谱在分析方法上同属于网络分析范畴,有关网络分析算法和工具能够相互通用并深度融合。针对海量数据挖掘的聚类和关联挖掘等属于“Google知识图谱”的机器学习算法,可以集成到“科学知识图谱”相关的软件工具中,以提高算法和工具分析性能;另一方面,“Google知识图谱”可以利用“科学知识图谱”中的可视化算法和工具展现大规模语义网络,清晰显示海量知识实体之间的复杂关系。

5 结语

作为知识管理领域的重要分析方法,“科学知识图谱”以社会网络分析和可视化为核心方法,广泛应用于科学学、管理学和图书情报学等诸多领域,已经有了近15年的发展历程,其支撑理论的研究,体系方法的完善和应用成果方面都取得长足的发展。“Google知识图谱”则是为顺应大数据发展的潮流而提出的基于语义网的海量知识库,从2012年至今不过4年时间,但是发展起点较高,伴随关联数据和机器学习研究的兴起,近年来在企业界发展势头迅猛。

正如刘则渊和陈超美等在相关文献中将“科学知识图谱”的“图”和“谱”分别释义为“可视化的知识图形”和“序列化的知识谱系”[15,24],非常形象地将知识网络的各种复杂的互动、交叉和演化关系勾画出来。在大数据时代,“科学知识图谱”将面临的是大规模网络单元的互动、交叉和演化的挑战,需要基于海量数据进行组织、梳理和挖掘,并在此基础形成创新型知识,而这正是“Google知识图谱”的优势所在,因此二者在通过方法和工具上的进一步融合,从而促进知识创新方面将有极其丰富的发展空间。另外,“Google知识图谱”中,以语义网模式绘制的“图”和领域本体规范下的“谱”,将给“科学知识图谱”理论研究和实践应用增添新的活力,也必将推动知识管理领域的新旧范式变革与更迭。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181026B1MD2A00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券