前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌正式推出数据集搜索Dataset Search

谷歌正式推出数据集搜索Dataset Search

作者头像
万能数据的小草
发布2020-02-19 14:46:52
1.5K0
发布2020-02-19 14:46:52
举报
文章被收录于专栏:万能的小草

2020年1月24日,Google正式推出数据集搜索引擎(https://datasetsearch.research.google.com)。目前Dataset Search已索引了全球网络上近2,500万个数据集,包括了教育、天气、癌症、犯罪、足球,以及动物等若干个子专题。Jeff Dean 和谷歌官方都在推特上宣布了这一消息

图1:推特截图

在 2018 年 9 月谷歌数据集搜索的 测试版本就开始面向「Scientists、journalists,students,data geek等人群」,一直以来都是人们寻找数据集的主要方式之一。

图2:数据集搜索首页

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

任何你感兴趣的主题都可能有无数种数据集。今天,谷歌数据集搜索已经涵盖了超过 2500 万种不同类型的数据集,它可以帮助你轻松地找到所有数据集的下载链接。

图3:数据集搜索示例

在正式版中,可以根据更新日期、下载格式(表格、图片、文本等),或者使用权限(允许用于商业用途、不允许用于商业用途)、是否可以免费获取等条件来进行搜索。Google鼓励数据集发布者都可以通过 schema.org 开放标准在自己的网站上进行规范性描述,以提高搜索结果的质量。

目前人们在数据集搜索上查询频率最高的词是「教育」、「天气」、「癌症」、「犯罪」、「足球」以及「狗」。目前绝大部分的公开数据都是以表格形式存储的,可以很容易地下载并进行处理。

图4:数据集下载示例

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小草学Python和SQL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档