开发 | 如何在Kaggle中高效搜索数据集?快吃下这枚安利

AI科技评论按:对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊登了Rachael Tatman的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作? AI科技评论将文章编译整理如下:

目前,在Kaggle上有成千上万的数据集,而且每天都会有新的增加。虽说Kaggle是一个非常棒的资源池,但是想在这么多的数据集里精准地找到与自己感兴趣的主题相关的,有时会有点棘手。在过去的几个月里,我学到了一些技巧和小窍门,或许能帮到你!

从“Datasets”页面搜索

大多数时候,我更喜欢打开“Datasets”页面搜索数据集。你可以点击Kaggle主页顶部的Datasets标签直达这个页面。

数据集搜索

在Datasets页面用搜索框搜索和在页面顶部搜索不同,你将能在页面上看到所有的搜索结果。

搜索小技巧

我写这篇文章的时候,Kaggle上的搜索已经支持一些额外的语法了,你可以通过下面的一些限定进行更精确的搜索。

“”:用双引号把搜索文本括住之后就可以进行精准搜索。例如搜索“巧克力蛋糕”,将会得到关于巧克力蛋糕的结果,而不会出现巧克力棒或红丝绒蛋糕。

+:将两个搜索词用加号连接,中间不要出现空格,将得到含有第一个词和第二个词的搜索结果。搜索“巧克力+蛋糕”将会得到同时包含巧克力和蛋糕的结果,而不会非得是巧克力蛋糕。

|:在两个搜索词之间插入这个符号,将得到有第一个词或第二个词的搜索结果,例如搜索“蛋糕|巧克力”将会得到有蛋糕或巧克力的结果。

*:如果你正在搜索的东西具有多种拼写方式,可以使用*进行搜索。例如搜索“choc*”,结果中将会出现以"choc"开头的关键词,比如"choclate"、"chocked"或是"chockablock"。

-:在搜索词前面加上减号将得到不包含该词的结果。例如搜索"蛋糕-巧克力"将会得到与蛋糕相关的结果,但会屏蔽掉所有带有巧克力的结果。

在搜索结果中进行更细致的查找

如果你搜索出来的结果太多了,这时浏览器中的页面搜索功能将起到很大作用。在大多数web浏览器中,你可以键入ctrl+f(在Mac上是cmd+f),然后在出现的方框中输入你想要更进一步搜索的文本。

将结果分类

你可以通过不同的方式将搜索结果分类:

  • 热度:这是默认的排序方式。热度取决于很多因素,包括在一段时间内总的受欢迎程度和活跃度的增长情况。
  • 得票数:这个排序取决于搜索结果的得票情况。
  • 更新时间(我比较推荐这种排序方式):这种排序是基于最近更新(创建或增加新版本)的时间,这是我个人最喜欢的排序方式。其他人可能更倾向于流行的、比较老的数据集,而我更想找到一些新的数据集。而且,我还发现了一点,近期更新过数据集的发布者更有可能回复大家的提问、对kernel作出评论。
  • 近期活跃度:这种排序方式取决于近期用户是否与数据集有过交互,比如对数据集进行评价、启动或运行kernel。
  • 相关度:这种排序方式取决于搜索结果与查询词的相关程度。

精选数据集与所有数据集

默认情况下,Datasets页面只会显示精选数据集,精选数据集是由Kaggle团队成员手工挑选的,有良好的文件记录、已经被清洗过并且随时可以使用。不过,并不是所有的数据集都是精选数据集,一些高质量的数据集可能还没有被精选。如果你想看到所有数据集,可以点击页面上“精选”旁边的“所有”选项卡。在选择所有数据集之后,可以通过数据集的标题旁是否有灰色的精选标签来分辨是否为精选数据集。

数据集标签

另一种查找数据集的方法是使用标签(相对较新的特性)。你可以通过两种方式搜索特定的标签。第一种方法是单击数据集列表或数据集页面上的标签,这将返回一系列带有匹配标签的数据集列表。第二种是在搜索框中搜索标签。你可以在你搜索的词后面加上用单引号括住的tag:标签名,即搜索词tag:标签名的形式,如果标签中有空格,记得打出来。

  • tag:'食物和饮品':搜索带有食物和饮品标签的数据集
  • tag:'因特网'::搜索带有因特网标签的数据集

有一些标签涵盖了很广泛的主题,数据发布者给自己的数据贴上这些标签,让它们更容易被发现。现在用户还没有办法添加自己的独一无二的标签,我建议大家可以通过点击搜索结果中的标签来进行搜索,而不是自己输入文本来进行搜索,试图猜测某个标签是否存在。

使用Kaggle主页顶部的搜索框来搜索

只有在这种情况下我才会使用Kaggle页面顶部的搜索框:搜索那些我知道已经存在的数据时。顶部的搜索框很方便,但在进行更深入的搜索时,我还是更倾向于在Datasets页面。

使用Kaggle页面顶部的搜索栏,你将不会得到包含所有搜索结果的页面,只会得到排名前十的搜索结果列表。如果你想快速查找一些东西,这还是很方便的。如果你搜索的是数据集,你可以在关键词之后加上in:datasets,这样会使你的搜索更精确。

这些差不多就是我给大家在kaggle上找数据的建议!如果你想在kaggle上找一种特定类型的数据,但是一直找不到,记住,你随时可以把自己的数据传上去。

AI科技评论

via:The Official Blog of Kaggle.com

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据小魔方

ggplot2玫瑰图案例——星巴克门店分布图

使用ggplot2制作放射状玫瑰图本不是什么难事,仅需将普通单序列柱形图添加添加一个极坐标转化参数即可。 但是遇到比较小清新的案例,还是值得手动操作一下的。 本...

3516
来自专栏PPV课数据科学社区

亮了!用Excel画出一目了然的数据地图

我在专栏(钱粮胡同 28 号)里写了一篇文章: 用 Excel 做出强大漂亮的数据地图 - 钱粮胡同 28 号 放在这里分享给大家。 这个方法的好处是:1)不...

4258
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙|测试与图像识别

测试与图像识别 活动时间:2016年3月16日 QQ群视频交流 活动介绍:TMQ在线沙龙第十七期分享 本次分享的主题是:测试与图像识别 共有43位测试小伙伴报名...

1826
来自专栏腾讯移动品质中心TMQ的专栏

测试建模 :从尔康的鼻孔说开来,重要的用例写三遍

看完本文你会了解以下内容 1. 什么是SUT模型 2. 测试建模在工作中究竟是怎样一个过程 3. 从业务流程到测试用例我们忽略了什么 4. 测试建模会有哪些产出...

1755
来自专栏小狼的世界

颜色、网页颜色与网页安全色

我们所看到的屏幕上所有的颜色都是由红、绿、蓝这三种基色调混合而成的。(在印刷上,颜色是四种颜色合成的,这个是表示方式上的不同。)每一种颜色的饱和度和透明度都是可...

622
来自专栏数据科学与人工智能

【Python环境】Python可视化工具综述

简介 在Python的世界里,可视化你的数据有多种选择。由于这种多样性,决定何时使用哪一个确实是种挑战。这篇文章包含由更受欢迎的包中的一部分制作的示例,并说明如...

25510
来自专栏BestSDK

从苹果按钮说起,交互设计中的那些小细节

苹果说,不论移动或电脑设备,行动按钮(Action button)都放在右边,也就是说*确定按钮放在右边*: ? 苹果的移动设备 ? 苹果的电脑设备 微软说,除...

2685
来自专栏AI研习社

如何在 Kaggle 中高效搜索数据集?快吃下这枚安利

对于关注数据科学的同学来说,Kaggle 上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle 官方博客就刊登了 Rac...

2454
来自专栏灯塔大数据

干货|一步步用python制作游戏外挂

玩过电脑游戏的同学对于外挂肯定不陌生,但是你在用外挂的时候有没有想过如何做一个外挂呢?(当然用外挂不是那么道义哈,呵呵),那我们就来看一下如何用Python来制...

39212
来自专栏WOLFRAM

Mathematica 11 在数学教学中的新功能部分示例

1627

扫描关注云+社区