OpenKG共有86个数据集。
首先,我们看一下其格式的标签列表。
可能与三元组相关的标签(一个数据集可能有多个标签)的总计数为 51,不算特别多,所以我打算把每个数集看一下,看看有没有 满足大小在 1G-10G
所有数据集共有5页。
下面图片中红框为可能符合要求的,其余 绿框内为格式或大小肯定不符合要求的。
下面我们一一来看第一页有可能可用的数据集
下载后发现大小只有15k。
没有rdf格式的数据。
进行下载后总大小只有10M
是一个教程,测试数据大小28M。
上图中可以看到四个文件的大小。
大小2.64G
下载解压后打开发现有非常多的压缩文件,数据都压扁了:
打开看文件内容
对里面的所有可获取文件进行下载,发现和上一个数据集是一样的。
分别点击三个浏览
尝试右击,没有反应
数据是按月份归档的,浏览第一个:
尝试下载或另存为这个文件,发现是禁止的:
除了本体描述都是JSON-LD
http://www.openkg.cn/dataset?_res_format_limit=10&page=2
浏览数据集:
发现 subject一直是主语,没有作为object,往下继续浏览这个文件也是。 下面检查一个ttl中的subject是否会是另一个文件的object:
包含的主语有 <http://openstreetmap.org/node/41231232> , 宾语均为属性。
包含的主语有: 包含的主语有 <http://openstreetmap.org/node/41231232>, 实体宾语有 <http://www.wikidata.org/wiki/Q355827>
没有实体宾语。
至此所有ttl文件,检查完毕,只有sameas 关系连接了两个实体,但是只有一跳。
三个文件加起来不到100M。
只有API,没有下载,且triple总数为 324,911,非常小。
网页数据无法下载或复制,且数据加载很快,估计不超过10M。
浏览第一个,下载下来是owl,且瞬间就下载下来了。
只有样例数据,尝试进入门户(查询系统),看是否开放源数据:
结果无法访问。
该网站不提供下载。
http://www.openkg.cn/dataset?_res_format_limit=10&page=3
最后链接到yago官网,yago源数据集都是压扁的,且非常大。
对数据进行下载:
大小为300M
谓语都是数字
搜索网站,没有下载。
文件瞬间打开,且subject不出现在object中。
宾语全部都是属性
http://www.openkg.cn/dataset?_res_format_limit=10&page=4
11.4M
点击进去后是API文档:
300kb不到
详细阅读文件后,找不到多跳关系。
跟之前的zhime差不多
门户无法打开: