Google数据集搜索神器上线,和搜索论文一样简单 | 还不去训练网络?

圆栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI

谷歌数据集搜索工具,上线了。

在发布这个消息的博客里,团队大概表达了这样的意思:

现在啊,许多领域的科学家,每天呼吸的不是空气,是数据集。没有数据集,他们就活不下去。

唯有数据集,能救命

不过,数据集分散在世界的各个角落,口口相传是最常用的传播途径。

谷歌想让搜索数据集,能像在Google Scholar上搜索论文那样容易。

如此,便有了Google Dataset Search

猫喜欢什么口味的冰淇淋?

这样一来,不论是哪里发布的数据集,谷歌一下就出来了。

使用方法都有,你又少了一个不好好训练网络的理由。

所以,一起来试一下吧。在下是按衣食住行四类,分别搜索的。

·衣·

穿着的部分,搜的是胖次pants

然后,就出现了墨西哥、秘鲁、哥伦比亚,各个国家关于裤子的数据集。

比如,从棉裤的视角,可看墨西哥的经济状况。

·食·

吃的东西,搜了ice cream

最吸引人的,当然不是各国的冰淇淋生产力。

猫在哪个年纪,喜欢哪种口味的冰淇淋,果然有 (mei) 些 (sha) 研究价值。

·住·

就看北京房价吧,搜索beijing house price

第一条结果来自Kaggle,是链家2011到2017年的数据。

这数据集的杀伤力,应该还是很大的。有兴趣的大家,可以自行观察。

传送门:https://www.kaggle.com/ruiqurm/lianjia

·行·

感觉出行服务、共享单车,也不会有什么惊喜。就搜了个horse

当然,搜出香港赛马的数据,也并不惊喜。

第二条,是关注马体健康状况的疝气数据。曾经有项研究,用疝气预测马的死亡概率。

数据集里,也有大千世界,各位不妨自己去搜一搜。

数据集搜索,不是一天建成的

为了搭好这个搜索工具,谷歌团队给提供数据集的人们,准备了一份充满关怀的指南。

这样一来,大家对贡献的数据集,就能有个统一的描述方式:

· 谁创建了数据集? · 什么时候发布的? · 数据怎样收集的? · 使用方法是什么? ……

信息一项一项填好,搜索工具才能更友好。

描述的时候,只要依照Schema.org的标准词汇表,就可以了。

谷歌把信息收集起来之后,就会去分析,一个数据集的不同版本,可能在哪些地方。

除此之外,还要看看有哪些论文 (或者其他出版物) ,提到过这个数据集。

谷歌团队说,这一版已经支持多种语言。更多语言的支持也已经在路上了。

比如,想要自我打击的话,现在可以直接搜索“中国房价”。

普通谷歌搜索,也能搜数据表格

谷歌在数据集上做过的事情,远不止Dataset Search这个工具这么简单。

除此之外,团队也为人类最常用的谷歌搜索,加入了表格数据搜索的能力。

进化前 vs 进化后 (右)

就像这样,已经可以搜索出谷歌基金会 (Google Foundation) 2014的总开支。

不过谷歌说,现在的这些努力结果,还是不够好。

他们希望,未来不论是科研领域、政府部门、新闻机构,还是任何各行各业,都有源源不断的数据,能从谷歌的平台上搜索出来。

意思就是,能提供数据集的大家,快到碗里来

Dataset Search传送门: https://toolbox.google.com/datasetsearch

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-09-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

量化派基于Hadoop、Spark、Storm的大数据风控架构

33530
来自专栏北京马哥教育

Linux运维工程师的现在与未来

Linux运维工程师的现在与未来 目录: 1. IT行业发展 2. Linux运维行业现状 a> Linux哪些行业在运用? b> Linux运维学习起来难吗?...

5.5K50
来自专栏互联网数据官iCDO

如何对本地企业网站进行竞争力评估?

这个问题的答案就在于竞争分析。你必须将企业A与企业B进行对比,以确定竞争对手的优势和劣势,然后进行有根据的猜测,以了解谷歌在特定搜索字词排名中最重要的影响因素是...

11330
来自专栏CSDN技术头条

TED演讲译文:大数据好东西,会偷走我们的工作……

你或许听说过大数据这个词。事实上,你可能对这个词已经心生厌恶。确实,大数据受到了空前的宣传炒作,这很不应该。因为大数据是一个非常重要的工具,社会将由此而不断进步...

23080
来自专栏机器人网

我和五个机器人之间不得不说的故事…

我饿了,我问聊天机器人冰箱里有什么,它告诉我有一个我做的熏肉、生菜和我做的番茄三明治。接着,当我感到无聊时,电影推荐机器人And Chill打开,它建议我看杰克...

36980
来自专栏java一日一条

值得程序员一看的 8 个冷门小知识

想要成为一名成功的程序员,我们除了了解不同编程语言的设计思路,也应当了解编程的发展历史,从而判断未来的编程技术将走向何方。接下就为大家普及下计算机发展历程中的8...

12750
来自专栏安恒信息

企业IT系统安全性提升困难的六个原因

企业安全性之最佳实践早已广为人知,但为什么绝大多数企业仍然无法真正实现?就在去年,Target公司CEO及CIO在遭遇到有史以来规模最大的支付卡信息窃取案件后相...

28280
来自专栏PPV课数据科学社区

150页互联网+深度报告:解读九大行业“新红利”【图观大数据35】

这场始于政府工作报告,由互联网和传统行业合力形成的巨大浪潮,正在以中国经济转型新驱动力的角色,席卷向整个生机勃勃的国家中每一处希望诞生之地。 但在所有的围观者...

32160
来自专栏腾讯大讲堂的专栏

让设计有感知

用户体验设计很多时候是一件看起来有点玄奥的东西,工作中会有这样的讨论 “我觉得这个方案不好。” “但我觉得OK。” “我觉得图片放右边比较好,美观。” “但我觉...

29070
来自专栏SDNLAB

中美关系对开源网络的影响

25620

扫码关注云+社区

领取腾讯云代金券