2020年1月24日,Google正式推出数据集搜索引擎(https://datasetsearch.research.google.com)。目前Dataset Search已索引了全球网络上近2,500万个数据集,包括了教育、天气、癌症、犯罪、足球,以及动物等若干个子专题。Jeff Dean 和谷歌官方都在推特上宣布了这一消息
图1:推特截图
在 2018 年 9 月谷歌数据集搜索的 测试版本就开始面向「Scientists、journalists,students,data geek等人群」,一直以来都是人们寻找数据集的主要方式之一。
图2:数据集搜索首页
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
任何你感兴趣的主题都可能有无数种数据集。今天,谷歌数据集搜索已经涵盖了超过 2500 万种不同类型的数据集,它可以帮助你轻松地找到所有数据集的下载链接。
图3:数据集搜索示例
在正式版中,可以根据更新日期、下载格式(表格、图片、文本等),或者使用权限(允许用于商业用途、不允许用于商业用途)、是否可以免费获取等条件来进行搜索。Google鼓励数据集发布者都可以通过 schema.org 开放标准在自己的网站上进行规范性描述,以提高搜索结果的质量。
目前人们在数据集搜索上查询频率最高的词是「教育」、「天气」、「癌症」、「犯罪」、「足球」以及「狗」。目前绝大部分的公开数据都是以表格形式存储的,可以很容易地下载并进行处理。
图4:数据集下载示例
本文分享自 小草学Python和SQL 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!