开发 | 如何在Kaggle中高效搜索数据集?快吃下这枚安利

AI科技评论按:对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊登了Rachael Tatman的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作? AI科技评论将文章编译整理如下:

目前,在Kaggle上有成千上万的数据集,而且每天都会有新的增加。虽说Kaggle是一个非常棒的资源池,但是想在这么多的数据集里精准地找到与自己感兴趣的主题相关的,有时会有点棘手。在过去的几个月里,我学到了一些技巧和小窍门,或许能帮到你!

从“Datasets”页面搜索

大多数时候,我更喜欢打开“Datasets”页面搜索数据集。你可以点击Kaggle主页顶部的Datasets标签直达这个页面。

数据集搜索

在Datasets页面用搜索框搜索和在页面顶部搜索不同,你将能在页面上看到所有的搜索结果。

搜索小技巧

我写这篇文章的时候,Kaggle上的搜索已经支持一些额外的语法了,你可以通过下面的一些限定进行更精确的搜索。

“”:用双引号把搜索文本括住之后就可以进行精准搜索。例如搜索“巧克力蛋糕”,将会得到关于巧克力蛋糕的结果,而不会出现巧克力棒或红丝绒蛋糕。

+:将两个搜索词用加号连接,中间不要出现空格,将得到含有第一个词和第二个词的搜索结果。搜索“巧克力+蛋糕”将会得到同时包含巧克力和蛋糕的结果,而不会非得是巧克力蛋糕。

|:在两个搜索词之间插入这个符号,将得到有第一个词或第二个词的搜索结果,例如搜索“蛋糕|巧克力”将会得到有蛋糕或巧克力的结果。

*:如果你正在搜索的东西具有多种拼写方式,可以使用*进行搜索。例如搜索“choc*”,结果中将会出现以"choc"开头的关键词,比如"choclate"、"chocked"或是"chockablock"。

-:在搜索词前面加上减号将得到不包含该词的结果。例如搜索"蛋糕-巧克力"将会得到与蛋糕相关的结果,但会屏蔽掉所有带有巧克力的结果。

在搜索结果中进行更细致的查找

如果你搜索出来的结果太多了,这时浏览器中的页面搜索功能将起到很大作用。在大多数web浏览器中,你可以键入ctrl+f(在Mac上是cmd+f),然后在出现的方框中输入你想要更进一步搜索的文本。

将结果分类

你可以通过不同的方式将搜索结果分类:

  • 热度:这是默认的排序方式。热度取决于很多因素,包括在一段时间内总的受欢迎程度和活跃度的增长情况。
  • 得票数:这个排序取决于搜索结果的得票情况。
  • 更新时间(我比较推荐这种排序方式):这种排序是基于最近更新(创建或增加新版本)的时间,这是我个人最喜欢的排序方式。其他人可能更倾向于流行的、比较老的数据集,而我更想找到一些新的数据集。而且,我还发现了一点,近期更新过数据集的发布者更有可能回复大家的提问、对kernel作出评论。
  • 近期活跃度:这种排序方式取决于近期用户是否与数据集有过交互,比如对数据集进行评价、启动或运行kernel。
  • 相关度:这种排序方式取决于搜索结果与查询词的相关程度。

精选数据集与所有数据集

默认情况下,Datasets页面只会显示精选数据集,精选数据集是由Kaggle团队成员手工挑选的,有良好的文件记录、已经被清洗过并且随时可以使用。不过,并不是所有的数据集都是精选数据集,一些高质量的数据集可能还没有被精选。如果你想看到所有数据集,可以点击页面上“精选”旁边的“所有”选项卡。在选择所有数据集之后,可以通过数据集的标题旁是否有灰色的精选标签来分辨是否为精选数据集。

数据集标签

另一种查找数据集的方法是使用标签(相对较新的特性)。你可以通过两种方式搜索特定的标签。第一种方法是单击数据集列表或数据集页面上的标签,这将返回一系列带有匹配标签的数据集列表。第二种是在搜索框中搜索标签。你可以在你搜索的词后面加上用单引号括住的tag:标签名,即搜索词tag:标签名的形式,如果标签中有空格,记得打出来。

  • tag:'食物和饮品':搜索带有食物和饮品标签的数据集
  • tag:'因特网'::搜索带有因特网标签的数据集

有一些标签涵盖了很广泛的主题,数据发布者给自己的数据贴上这些标签,让它们更容易被发现。现在用户还没有办法添加自己的独一无二的标签,我建议大家可以通过点击搜索结果中的标签来进行搜索,而不是自己输入文本来进行搜索,试图猜测某个标签是否存在。

使用Kaggle主页顶部的搜索框来搜索

只有在这种情况下我才会使用Kaggle页面顶部的搜索框:搜索那些我知道已经存在的数据时。顶部的搜索框很方便,但在进行更深入的搜索时,我还是更倾向于在Datasets页面。

使用Kaggle页面顶部的搜索栏,你将不会得到包含所有搜索结果的页面,只会得到排名前十的搜索结果列表。如果你想快速查找一些东西,这还是很方便的。如果你搜索的是数据集,你可以在关键词之后加上in:datasets,这样会使你的搜索更精确。

这些差不多就是我给大家在kaggle上找数据的建议!如果你想在kaggle上找一种特定类型的数据,但是一直找不到,记住,你随时可以把自己的数据传上去。

AI科技评论

via:The Official Blog of Kaggle.com

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Android 开发者

[译] 建立一个像科幻小说一样的虚拟世界:设计一个全球性的虚拟世界

52430
来自专栏PHP在线

PHP中的防御性编程

菲纳格动态逆定律: 会出错的,终将会出错 —- 在最糟糕的时刻。 防御性编程是什么意思 防御性编程,简单的说,就是在编程的时候有目的地预测可能的故障点。目的是...

31460
来自专栏安智客

基于可信环境的远程人脸识别认证系统技术要求

本篇针对目前信安标委《基于可信环境的远程人脸识别认证系统技术要求》标准规范征集意见稿进行学习!

30030
来自专栏挖数

这5款可视化利器,让数据在屏幕上跳舞

用好可视化工具,往往对枯燥的数据有点石成金的效果,今天挖数给大家推荐5款数据可视化的利器,一起让数据灵动起来! PowerBI 微软出品,与Excel无缝连接...

34270
来自专栏1001482的专栏

从 0 到 1 打造轻量级图像识别服务框架

在这个AI时代,图像识别技术作为其基础能力之一,也在快速发展中,今天来聊聊图像识别的服务运行框架。

3.8K20
来自专栏大魏分享(微信公众号:david-share)

云时代企业如何建设绿色数据中心(第一篇)

建设绿色数据中心的必要性 中国目前是是全球最大的温室气体排放国,节能减排是“十二五”的重要工作内容。发改委在2013年就明确了首批10个行业的企业温室气...

36760
来自专栏瓜大三哥

FPGA内部资源介绍

39820
来自专栏谈补锅

apns关于APP数字角标的理解

  前两天群里有兄弟在吐槽,做远程推送的时候:老板要求APP桌面图标的右上角显示红色未读数字(数字角标)要精准,有多少未读通知就显示数字几;但是后台的弟兄在发送...

24930
来自专栏老九学堂

谷歌最新开源酷炫项目集,前端、算法、机器学习都有了

2017年,Google 在 GitHub 上大约有 900 名活跃用户,共推送约 1100 个顶级库。 ? Google 开源了许多非常有价值的项目比如十分流...

60750
来自专栏人工智能头条

机器学习数据采集入门经验分享

14240

扫码关注云+社区

领取腾讯云代金券