前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenKG数据逐一截图说明

OpenKG数据逐一截图说明

作者头像
陈黎栋
发布2020-02-17 23:24:07
8530
发布2020-02-17 23:24:07
举报

数据格式总览

OpenKG共有86个数据集。

首先,我们看一下其格式的标签列表。

可能与三元组相关的标签(一个数据集可能有多个标签)的总计数为 51,不算特别多,所以我打算把每个数集看一下,看看有没有 满足大小在 1G-10G

所有数据集共有5页。

下面图片中红框为可能符合要求的,其余 绿框内为格式或大小肯定不符合要求的。

第一页

下面我们一一来看第一页有可能可用的数据集

OMAHA术语集样例

下载后发现大小只有15k。

webdatacommons数据集

没有rdf格式的数据。

中文症状库 热门

进行下载后总大小只有10M

快雨-证券数据api

基于limes的中文知识图谱融合实战演练教程

是一个教程,测试数据大小28M。

国内主要中文百科知识图谱之间的链接数据集 热门

上图中可以看到四个文件的大小。

中文百科知识图谱Zhishi.me-提供Dump 热门

大小2.64G

下载解压后打开发现有非常多的压缩文件,数据都压扁了:

打开看文件内容

Zhishi.me 热门

对里面的所有可获取文件进行下载,发现和上一个数据集是一样的。

清华大学-科技知识图谱 热门

北京大学中文百科知识图谱-PKU-PIE 知识库 热门

分别点击三个浏览

尝试右击,没有反应

中文百科知识图谱-zhOnto-提供Dump 热门

基于CNSchema的城市知识图谱(交通数据) 热门

数据是按月份归档的,浏览第一个:

尝试下载或另存为这个文件,发现是禁止的:

空气质量语义描述

除了本体描述都是JSON-LD

第二页

http://www.openkg.cn/dataset?_res_format_limit=10&page=2

OpenStreetMap和Wikidata的实体链接数据集(部分国外区域)

浏览数据集:

发现 subject一直是主语,没有作为object,往下继续浏览这个文件也是。 下面检查一个ttl中的subject是否会是另一个文件的object:

包含的主语有 <http://openstreetmap.org/node/41231232> , 宾语均为属性。

包含的主语有: 包含的主语有 <http://openstreetmap.org/node/41231232>, 实体宾语有 <http://www.wikidata.org/wiki/Q355827>

没有实体宾语。

至此所有ttl文件,检查完毕,只有sameas 关系连接了两个实体,但是只有一跳。

百科人物概念与实例 热门

三个文件加起来不到100M。

KG-Buddhism

只有API,没有下载,且triple总数为 324,911,非常小。

音乐知识图谱 热门

网页数据无法下载或复制,且数据加载很快,估计不超过10M。

日本餐厅数据 热门

天气语义数据 热门

浏览第一个,下载下来是owl,且瞬间就下载下来了。

XLORE双语百科知识图谱 热门

影视双语知识图谱 热门

只有样例数据,尝试进入门户(查询系统),看是否开放源数据:

结果无法访问。

中医医案知识图谱 热门

该网站不提供下载。

第三页

http://www.openkg.cn/dataset?_res_format_limit=10&page=3

YAGO多语言知识库(包含中文) 热门

最后链接到yago官网,yago源数据集都是压扁的,且非常大。

Microsoft Concept Graph

对数据进行下载:

大小为300M

谓语都是数字

城市内涝语义数据 热门

BabelNet-多语言百科字典和语义网络 热门

搜索网站,没有下载。

中国旅游景点知识图谱 热门

人物类RDF知识 热门

文件瞬间打开,且subject不出现在object中。

疾病术语集 热门

Linked Open Schema

MulType

宾语全部都是属性

观测指标标识符逻辑命名与编码系统

乳腺癌临床试验语义标注

第四页

http://www.openkg.cn/dataset?_res_format_limit=10&page=4

Music 热门

11.4M

新三板企业数据

点击进去后是API文档:

突发事件知识图谱 热门

300kb不到

Clinga 热门

详细阅读文件后,找不到多跳关系。

Zhishi.lemon

跟之前的zhime差不多

herbnet

门户无法打开:

第五页

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据格式总览
  • 第一页
    • OMAHA术语集样例
      • webdatacommons数据集
      • 中文症状库 热门
      • 快雨-证券数据api
      • 基于limes的中文知识图谱融合实战演练教程
      • 国内主要中文百科知识图谱之间的链接数据集 热门
      • 中文百科知识图谱Zhishi.me-提供Dump 热门
      • Zhishi.me 热门
      • 清华大学-科技知识图谱 热门
      • 北京大学中文百科知识图谱-PKU-PIE 知识库 热门
      • 中文百科知识图谱-zhOnto-提供Dump 热门
      • 基于CNSchema的城市知识图谱(交通数据) 热门
      • 空气质量语义描述
      • OpenStreetMap和Wikidata的实体链接数据集(部分国外区域)
      • 百科人物概念与实例 热门
      • KG-Buddhism
      • 音乐知识图谱 热门
      • 日本餐厅数据 热门
      • 天气语义数据 热门
      • XLORE双语百科知识图谱 热门
      • 影视双语知识图谱 热门
      • 中医医案知识图谱 热门
      • YAGO多语言知识库(包含中文) 热门
      • Microsoft Concept Graph
      • 城市内涝语义数据 热门
      • BabelNet-多语言百科字典和语义网络 热门
      • 中国旅游景点知识图谱 热门
      • 人物类RDF知识 热门
      • 疾病术语集 热门
      • Linked Open Schema
      • MulType
      • 观测指标标识符逻辑命名与编码系统
      • 乳腺癌临床试验语义标注
      • Music 热门
      • 新三板企业数据
      • 突发事件知识图谱 热门
      • Clinga 热门
      • Zhishi.lemon
      • herbnet
  • 第二页
  • 第三页
  • 第四页
  • 第五页
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档