开发 | 如何在Kaggle中高效搜索数据集?快吃下这枚安利

AI科技评论按:对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊登了Rachael Tatman的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作? AI科技评论将文章编译整理如下:

目前,在Kaggle上有成千上万的数据集,而且每天都会有新的增加。虽说Kaggle是一个非常棒的资源池,但是想在这么多的数据集里精准地找到与自己感兴趣的主题相关的,有时会有点棘手。在过去的几个月里,我学到了一些技巧和小窍门,或许能帮到你!

从“Datasets”页面搜索

大多数时候,我更喜欢打开“Datasets”页面搜索数据集。你可以点击Kaggle主页顶部的Datasets标签直达这个页面。

数据集搜索

在Datasets页面用搜索框搜索和在页面顶部搜索不同,你将能在页面上看到所有的搜索结果。

搜索小技巧

我写这篇文章的时候,Kaggle上的搜索已经支持一些额外的语法了,你可以通过下面的一些限定进行更精确的搜索。

“”:用双引号把搜索文本括住之后就可以进行精准搜索。例如搜索“巧克力蛋糕”,将会得到关于巧克力蛋糕的结果,而不会出现巧克力棒或红丝绒蛋糕。

+:将两个搜索词用加号连接,中间不要出现空格,将得到含有第一个词和第二个词的搜索结果。搜索“巧克力+蛋糕”将会得到同时包含巧克力和蛋糕的结果,而不会非得是巧克力蛋糕。

|:在两个搜索词之间插入这个符号,将得到有第一个词或第二个词的搜索结果,例如搜索“蛋糕|巧克力”将会得到有蛋糕或巧克力的结果。

*:如果你正在搜索的东西具有多种拼写方式,可以使用*进行搜索。例如搜索“choc*”,结果中将会出现以"choc"开头的关键词,比如"choclate"、"chocked"或是"chockablock"。

-:在搜索词前面加上减号将得到不包含该词的结果。例如搜索"蛋糕-巧克力"将会得到与蛋糕相关的结果,但会屏蔽掉所有带有巧克力的结果。

在搜索结果中进行更细致的查找

如果你搜索出来的结果太多了,这时浏览器中的页面搜索功能将起到很大作用。在大多数web浏览器中,你可以键入ctrl+f(在Mac上是cmd+f),然后在出现的方框中输入你想要更进一步搜索的文本。

将结果分类

你可以通过不同的方式将搜索结果分类:

  • 热度:这是默认的排序方式。热度取决于很多因素,包括在一段时间内总的受欢迎程度和活跃度的增长情况。
  • 得票数:这个排序取决于搜索结果的得票情况。
  • 更新时间(我比较推荐这种排序方式):这种排序是基于最近更新(创建或增加新版本)的时间,这是我个人最喜欢的排序方式。其他人可能更倾向于流行的、比较老的数据集,而我更想找到一些新的数据集。而且,我还发现了一点,近期更新过数据集的发布者更有可能回复大家的提问、对kernel作出评论。
  • 近期活跃度:这种排序方式取决于近期用户是否与数据集有过交互,比如对数据集进行评价、启动或运行kernel。
  • 相关度:这种排序方式取决于搜索结果与查询词的相关程度。

精选数据集与所有数据集

默认情况下,Datasets页面只会显示精选数据集,精选数据集是由Kaggle团队成员手工挑选的,有良好的文件记录、已经被清洗过并且随时可以使用。不过,并不是所有的数据集都是精选数据集,一些高质量的数据集可能还没有被精选。如果你想看到所有数据集,可以点击页面上“精选”旁边的“所有”选项卡。在选择所有数据集之后,可以通过数据集的标题旁是否有灰色的精选标签来分辨是否为精选数据集。

数据集标签

另一种查找数据集的方法是使用标签(相对较新的特性)。你可以通过两种方式搜索特定的标签。第一种方法是单击数据集列表或数据集页面上的标签,这将返回一系列带有匹配标签的数据集列表。第二种是在搜索框中搜索标签。你可以在你搜索的词后面加上用单引号括住的tag:标签名,即搜索词tag:标签名的形式,如果标签中有空格,记得打出来。

  • tag:'食物和饮品':搜索带有食物和饮品标签的数据集
  • tag:'因特网'::搜索带有因特网标签的数据集

有一些标签涵盖了很广泛的主题,数据发布者给自己的数据贴上这些标签,让它们更容易被发现。现在用户还没有办法添加自己的独一无二的标签,我建议大家可以通过点击搜索结果中的标签来进行搜索,而不是自己输入文本来进行搜索,试图猜测某个标签是否存在。

使用Kaggle主页顶部的搜索框来搜索

只有在这种情况下我才会使用Kaggle页面顶部的搜索框:搜索那些我知道已经存在的数据时。顶部的搜索框很方便,但在进行更深入的搜索时,我还是更倾向于在Datasets页面。

使用Kaggle页面顶部的搜索栏,你将不会得到包含所有搜索结果的页面,只会得到排名前十的搜索结果列表。如果你想快速查找一些东西,这还是很方便的。如果你搜索的是数据集,你可以在关键词之后加上in:datasets,这样会使你的搜索更精确。

这些差不多就是我给大家在kaggle上找数据的建议!如果你想在kaggle上找一种特定类型的数据,但是一直找不到,记住,你随时可以把自己的数据传上去。

AI科技评论

via:The Official Blog of Kaggle.com

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PHP技术

零基础如何系统地学习前端开发?

原文出处: @张帅在地上 网站开发开发大致分为前端和后端,前端主要负责实现视觉和交互效果,以及与服务器通信,完成业务逻辑。其核心价值在于对用户体验的追求。...

35013
来自专栏腾讯Bugly的专栏

【Bugly新技能】爱整理,就用标签功能管理异常

Bugly平台正式推出“标签”功能,快速看穿每个异常! ? ------文章底部有传说中的彩蛋------ 前些日子在Bugly交流群上进行的需求投票结果中,有...

2985
来自专栏阮一峰的网络日志

1979年的电子打字机

上周五,《大西洋》月刊的记者James Fallows,在Blog上回忆28年前(1982年)的一篇旧文。 那个时候,他刚入行不久,每周有大量的写稿任务,天天都...

2684
来自专栏华章科技

【干货】为什么你的数据分析那么好,图表做得那么烂?

原文链接:http://blog.sina.com.cn/s/blog_691ac57d0102vmx8.html

321
来自专栏程序你好

在.Net Core中构建一个基本的区块链

892
来自专栏阮一峰的网络日志

排版六原则

几天后,就收到了秋叶老师的来信,希望与我探讨一些设计问题。他写过一本畅销书《说服力-让你的PPT会说话》,眼下正在写续集。

622
来自专栏逻辑熊猫带你玩Python

Python | 写了个钟&

这是一个模拟时钟软件。实现原理是利用time模块获取系统时间,然后利用pygame模块强大的图形处理能力,将时间变成钟表样式。这中间需要用到数学模块。

953
来自专栏小狼的世界

是什么让我们爱上Javascript

    过去,人们对于Javascript一直报着轻视的态度,人们认为它又慢又容易出错,而且在不同浏览器中解释也不一样,但是现在,Javascript确确实实的...

1003
来自专栏程序员的诗和远方

2018-0701_ARTS_week01

992
来自专栏从流域到海域

《笨办法学Python》 第36课手记

《笨办法学Python》 第36课手记 本节课讲设计与调试。规则和技巧需要你熟记于心,你可以重复多看几遍,每一遍间隔一天,确保你记住这些内容,它们能使你写出优雅...

19410

扫码关注云+社区