前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对DBpedia各子数据集特点分析

对DBpedia各子数据集特点分析

作者头像
陈黎栋
发布2020-02-18 10:05:27
1.5K0
发布2020-02-18 10:05:27
举报

对DBpedia各子数据集特点分析

数据地址见DBPedia官网。

Mainly From DataSet 3.0 ,一般同样的数据集,版本越新,size越大。

article_categories 2.0GB 关系只有一种类型,二分图,主语和谓语没有交集,形如:

主 谓 宾

Image 1.3GB ,每5行描述一个Image,为一个单元,单元与单元之间没有关联,sample如下:

<<images_1.3G_sample_and_Chinese_description.nt>>

Links to Wikipedia Article ( preview ) 300M

单一谓语,主语和宾语间没有交集。

Labels 1.0G ,PageId 1.6G, Revision 1.7G, short_abstract 10+G 形如:

主1 - 谓 - 属性1

主2 - 谓 - 属性2

….

只有一种谓语。

以下数据集同样猜测为单一谓语:

Titles ( preview )

From <https://wiki.dbpedia.org/data-set-30>

Extended Abstracts ( preview )

From <https://wiki.dbpedia.org/data-set-30>

External Links ( preview )

From <https://wiki.dbpedia.org/data-set-30>

Homepages ( preview )

From <https://wiki.dbpedia.org/data-set-30>

Infoboxproperties

每两行为一个单元,单元与单元之间没有连接。

Geographic Coordinates ( preview )

主语宾语没有交集

From <https://wiki.dbpedia.org/data-set-30>

Properties 8.4M

specific_mappingbased_properties 82M

谓语有多种。

宾语全部都是属性,形如"777000.0"^^<http://dbpedia.org/datatype/kilogram>

Pagelinks

3.3GB 每三行描述一个Page为一个单元,单元与单元之间没有关联,sample如下:

<<wikipedia_links_en_sample_and_chineseDescription.nt>>

Persondata

7M 每三行描述一个Person,为一个单元,单元与单元之间没有关联。

Cleanded Wikipedia Category Class (CWCC) Hierarchy ( preview ) (experimental/buggy)

From <https://wiki.dbpedia.org/data-set-30> 主语和谓语间没有交集

CWCC Hierarchy Instances ( preview ) 150M

From <https://wiki.dbpedia.org/data-set-30>

主语和谓语间没有交集。 主语和宾语间没有交集。 谓语有三种。 CSV文件。 不是以Url形式存在。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档