知识图谱(Knowledge Graph)是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,揭示知识领域的动态发展规律,为研究和决策提供切实的、有价值的参考。
目前,随着机器学习和自然语言处理技术的不断发展,在大数据的推动下,知识图谱受到学界和业界的广泛关注。但目前它的发展还存在着不少阻碍,例如从数据中挖掘出高质量的知识需要大量的数据处理工作,构建垂直领域知识图谱的代价很大,很多研究工作都不具备实用性等等。
而 AceKG 究竟有何优势?据发布团队介绍,与现有学术知识图谱相比,AceKG 主要有如下三个特点:
下图是 AceKG 的结构框架。可以看到,AceKG 为每个实体提供了丰富的属性信息,在网络拓扑结构的基础上加上语义信息,可以为众多学术大数据挖掘项目提供全面支持。
以下是一些示例文件,大家可以点击如下链接 http://acemap.sjtu.edu.cn/app/Datasets/KG/example.zip ,来了解和使用该知识图谱。
此外,AceKG 使用 Apache Jena 框架驱动。Apache Jena(http://jena.apache.org )使用 TDB 数据库存储数据,并且提供 SPARQL 引擎进行数据查询。它还为 Web 客户端提供 FusekiHTTP 服务,并提供完整的 Java API 查询数据。架构如下图:
值得一提的是,AceKG 并不是 AI 研习社报道的第一个学术知识图谱。此前,清华大学教授、Arnetminer 创始人唐杰博士公开亿级学术图谱——Open Academic Graph。此图谱集成了两个最大的公开学术图谱:微软学术图谱(MAG)和 AMiner 学术图谱。开发团队通过集成 MAG 中 1.66 亿学术论文和 AMiner 中 1.55 亿学术论文的元数据信息,生成了这两个学术图谱之间近 6500 万对链接(匹配)关系。
据唐杰教授介绍,公开 Open Academic Graph 目的如下:一是集成丰富的学术知识数据,二是数据共享,三是服务共享。简言之,他们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘等领域的研究,设计更加智能的学术图谱连接系统,以方便更多人使用服务以及加入开放学术社区。
在雷锋网 AI 研习社看来,这些学术知识图谱的发布,不管对学界还是对业界来说都有极大的意义。一方面能助力大家当前的研究,另一方面也能吸引更多人来进行学术知识图谱相关的研究。相信随着越来越多学术知识图谱的公开,将促进学术大数据挖掘项目的持续发展。
AceKG 详细信息,参见:http://acemap.sjtu.edu.cn/app/AceKG/index.html