如何在 Kaggle 中高效搜索数据集?快吃下这枚安利

对于关注数据科学的同学来说,Kaggle 上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle 官方博客就刊登了 Rachael Tatman 的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作?AI研习社将文章编译整理如下。

目前,在 Kaggle 上有成千上万的数据集,而且每天都会有新的增加。虽说 Kaggle 是一个非常棒的资源池,但是想在这么多的数据集里精准地找到与自己感兴趣的主题相关的,有时会有点棘手。在过去的几个月里,我学到了一些技巧和小窍门,或许能帮到你!

从 “Datasets” 页面搜索

大多数时候,我更喜欢打开 “Datasets” 页面搜索数据集。你可以点击 Kaggle 主页顶部的 Datasets 标签直达这个页面。

数据集搜索

在 Datasets 页面用搜索框搜索和在页面顶部搜索不同,你将能在页面上看到所有的搜索结果。

搜索小技巧

我写这篇文章的时候,Kaggle 上的搜索已经支持一些额外的语法了,你可以通过下面的一些限定进行更精确的搜索。

“”:用双引号把搜索文本括住之后就可以进行精准搜索。例如搜索 “巧克力蛋糕”,将会得到关于巧克力蛋糕的结果,而不会出现巧克力棒或红丝绒蛋糕。

+:将两个搜索词用加号连接,中间不要出现空格,将得到含有第一个词和第二个词的搜索结果。搜索 “巧克力 + 蛋糕” 将会得到同时包含巧克力和蛋糕的结果,而不会非得是巧克力蛋糕。

|:在两个搜索词之间插入这个符号,将得到有第一个词或第二个词的搜索结果,例如搜索 “蛋糕 | 巧克力” 将会得到有蛋糕或巧克力的结果。

*:如果你正在搜索的东西具有多种拼写方式,可以使用 * 进行搜索。例如搜索 “choc*”,结果中将会出现以 "choc" 开头的关键词,比如 "choclate"、"chocked" 或是 "chockablock"。

-:在搜索词前面加上减号将得到不包含该词的结果。例如搜索 "蛋糕 - 巧克力" 将会得到与蛋糕相关的结果,但会屏蔽掉所有带有巧克力的结果。

在搜索结果中进行更细致的查找

如果你搜索出来的结果太多了,这时浏览器中的页面搜索功能将起到很大作用。在大多数 web 浏览器中,你可以键入 ctrl+f(在 Mac 上是 cmd+f),然后在出现的方框中输入你想要更进一步搜索的文本。

将结果分类

你可以通过不同的方式将搜索结果分类:

  • 热度:这是默认的排序方式。热度取决于很多因素,包括在一段时间内总的受欢迎程度和活跃度的增长情况。
  • 得票数:这个排序取决于搜索结果的得票情况。
  • 更新时间(我比较推荐这种排序方式):这种排序是基于最近更新 (创建或增加新版本) 的时间,这是我个人最喜欢的排序方式。其他人可能更倾向于流行的、比较老的数据集,而我更想找到一些新的数据集。而且,我还发现了一点,近期更新过数据集的发布者更有可能回复大家的提问、对 kernel 作出评论。
  • 近期活跃度:这种排序方式取决于近期用户是否与数据集有过交互,比如对数据集进行评价、启动或运行 kernel。
  • 相关度:这种排序方式取决于搜索结果与查询词的相关程度。

精选数据集与所有数据集

默认情况下,Datasets 页面只会显示精选数据集,精选数据集是由 Kaggle 团队成员手工挑选的,有良好的文件记录、已经被清洗过并且随时可以使用。不过,并不是所有的数据集都是精选数据集,一些高质量的数据集可能还没有被精选。如果你想看到所有数据集,可以点击页面上 “精选” 旁边的 “所有” 选项卡。在选择所有数据集之后,可以通过数据集的标题旁是否有灰色的精选标签来分辨是否为精选数据集。

数据集标签

另一种查找数据集的方法是使用标签 (相对较新的特性)。你可以通过两种方式搜索特定的标签。第一种方法是单击数据集列表或数据集页面上的标签,这将返回一系列带有匹配标签的数据集列表。第二种是在搜索框中搜索标签。你可以在你搜索的词后面加上用单引号括住的 tag: 标签名,即搜索词 tag:标签名的形式,如果标签中有空格,记得打出来。

  • tag:'食物和饮品':搜索带有食物和饮品标签的数据集
  • tag:'因特网'::搜索带有因特网标签的数据集

有一些标签涵盖了很广泛的主题,数据发布者给自己的数据贴上这些标签,让它们更容易被发现。现在用户还没有办法添加自己的独一无二的标签,我建议大家可以通过点击搜索结果中的标签来进行搜索,而不是自己输入文本来进行搜索,试图猜测某个标签是否存在。

使用 Kaggle 主页顶部的搜索框来搜索

只有在这种情况下我才会使用 Kaggle 页面顶部的搜索框:搜索那些我知道已经存在的数据时。顶部的搜索框很方便,但在进行更深入的搜索时,我还是更倾向于在 Datasets 页面。

使用 Kaggle 页面顶部的搜索栏,你将不会得到包含所有搜索结果的页面,只会得到排名前十的搜索结果列表。如果你想快速查找一些东西,这还是很方便的。如果你搜索的是数据集,你可以在关键词之后加上 in:datasets,这样会使你的搜索更精确。

这些差不多就是我给大家在 kaggle 上找数据的建议!如果你想在 kaggle 上找一种特定类型的数据,但是一直找不到,记住,你随时可以把自己的数据传上去。

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-09-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

钱塘干货 | 数据收集和处理工具一览

进入大数据时代,调查报道愈加成为信息战。从哪里收集有效数据?如何抽取、筛选、整合、分类大量琐碎的信息?如何分享、存储数据,并实现随取随用?钱塘君整理了一张数据收...

4427
来自专栏张戈的专栏

呐尼!居然有黑客攻击我这个小博客?

睡前感觉博客开启速度有点慢,就把百度加速乐给关了,然后看到旁边有个加速乐的报表,好奇点了下,结果尼玛居然有黑客瞄上我这个小博客,攻击了几千次?看了下尝试的链接全...

3744
来自专栏PHP在线

PHP中的防御性编程

菲纳格动态逆定律: 会出错的,终将会出错 —- 在最糟糕的时刻。 防御性编程是什么意思 防御性编程,简单的说,就是在编程的时候有目的地预测可能的故障点。目的是...

2986
来自专栏挖数

这5款可视化利器,让数据在屏幕上跳舞

用好可视化工具,往往对枯燥的数据有点石成金的效果,今天挖数给大家推荐5款数据可视化的利器,一起让数据灵动起来! PowerBI 微软出品,与Excel无缝连接...

3207
来自专栏美团技术团队

业务赋能利器之外卖特征档案

应用背景及现状 美团外卖业务自2013年9月启动至今已运营三年时间。截至2016年12月,美团点评整个外卖平台的日订单超过900万。从发展速度和体量上看,外卖业...

4147
来自专栏二进制文集

思维导图学 Maven

1382
来自专栏WeTest质量开放平台团队的专栏

UPA性能分析工具使用详解

自从WeTest宣布与Unity官方共同推出Unity性能分析工具UPA(Unity Performance Analysis)以来(Hi,我们和Unity合作...

1312
来自专栏ATYUN订阅号

时隔三年半,英特尔发布开源计算机视觉库OpenCV 4.0

OpenCV是英特尔的开源计算机视觉库,是在BSD许可下发布的,因此它可以免费用于学术和商业用途。它具有C ++,Python和Java接口,并支持Window...

1035
来自专栏python小白到大牛

python老司机带你玩玩炫酷的3D渲染,酷毙了!

自从学会了turtle模块后,画了不少简笔画。像小猪佩奇、哆啦A梦等等,但是这些依然不能让身边人感受到python的强大,依然是每次装逼必被打脸。就像你用tur...

3752
来自专栏数据的力量

google的搜索技巧

1638

扫码关注云+社区

领取腾讯云代金券