专栏首页相约机器人拥有免费数据集的十大优秀网站

拥有免费数据集的十大优秀网站

如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。

使用具有各种主题的免费数据集的所有这些网站具有许多优点。根据他们的不同,可以轻松提升自己的技能,发展自己的工作方式,这在今天非常重要。

#1 data.world

https://data.world/

那么,data.world无疑是一个包含公共数据集的优秀存储库。最欣赏这个地方并建议将其用于其他人的最重要原因是来自多个来源和各种目的(金融,犯罪,经济,推特,美国宇航局等)的各种各样的数据集。

但推荐它并不是一个单一的理由,因为在这里还可以上传数据并与同事或其他用户协作,并相互分享宝贵的见解。在这里可以编写SQL和SPARQL查询,以一次浏览多个文件并连接多个数据集。此外data.world还为R和Python提供了SDK,使其更容易上传,导出和处理数据。

只需创建一个帐户,登录,然后搜索所需的材料即可。所以,是的,实际上这是一个很棒的地方。但是如果仍然有很多有趣的网站,为什么只限于一个地方呢?

#2 Kaggle

https://www.kaggle.com/

另一个找到免费数据集的好地方。总的来说,Kaggle是一个多功能网站,或者最好称之为着名的“数据科学社区”,它不仅提供各种外部共享的有趣数据集,还提供获取新知识和实践技能的材料。通过允许用户与他人共享代码,Kaggle提供了数据空间内的学习最佳实践。惊人的组合,不是吗?

这里的搜索非常简单。只需打开主页,然后在页面顶部找到搜索框即可。然后,使用“in:datasets”标签。例如,要获取有关药物的数据,请在搜索框中输入“药物输入:数据集”。

需要知道的另一个细微差别是Kaggle还举办比赛,如果有一流的模型,可以赢得真钱。可以下载任何一个数据,但必须注册Kaggle并接受竞赛的服务条款。

#3 FiveThirthyEight

https://fivethirtyeight.com/

FiveThirthyEight是推荐的最好的地方之一。它是大量存储免费数据集和专门用于数据科学的丰富信息文章的完美结合。坦率地说,现在可以停止阅读帖子,只使用这个网站。但是实际上,在开玩笑,因为每个地方都有自己的特点和可能性。

总而言之,FiveThirthyEight可以为有抱负的数据科学家和材料提供大量有趣的信息。他们使用硬数据和统计分析来讲述有关政治,体育,社会问题等的故事。

需要了解的关于FiveThirthyEight的事实是,该服务使其文章中使用的数据集可以在Github上以及在其自己的数据门户上在线获得。这些数据的范围从哪些州有最差的驱动因素到不同大学专业的经济价值。他们将大量数据公开给公众,这意味着可以自己下载和播放源数据!

https://github.com/fivethirtyeight/data

#4 BuzzFeed

https://www.buzzfeed.com/

可能会惊讶为什么这个网站在这里,乍一看,它与数据科学无关。嗯是的,BuzzFeed是一家提供新闻和娱乐内容的跨平台数字媒体公司。但是事实上这是多功能服务,它保留了所有有趣和有用的选项,正如可能猜到的那样,免费数据集也不例外。

就个人而言,BuzzFeed是搜索机器学习和数据科学公共数据集的绝佳来源,可以在线获取不同主题 - 从顶级健身趋势和啤酒配方到农药中毒率。可以在Github上找到所有这些材料。

https://github.com/BuzzFeedNews/everything

顺便说一句,BuzzFeed还为有抱负的数据科学家提供了很多其他材料,如分析,库,工具,指南等等。换句话说,几乎可以在任何场合使用它。

#5 Data.gov

https://www.data.gov/

另一个快速而简单的网站 - Data.gov是一个大型数据集聚合器,是美国政府开放数据的所在地。有14个不同的主题(从农业,公共安全到地方政府),因此很有可能选择非常有趣的数据集。更重要的是,这是一个数据驱动的新闻和讲故事的好网站。

这里的搜索很简单,可以直接浏览数据集,无需注册。可以应用额外的过滤器,如主题类别,位置,标签,文件格式,组织等,并使搜索更有效。

#6 Socrata OpenData

https://opendata.socrata.com/

Socrata OpenData是一个包含多个数据集的门户,可以在浏览器中进行探索或下载以进行可视化。广泛的信息使其成为持续好奇的数据科学家 - 实践者的有吸引力的资源。

但是需要记住有关此站点的一个细微差别。存在不良的材料管理,这意味着您必须对可用的内容进行分类,以查找干净且最新的数据。顺便说一下,它并不是一个很大的缺点,因为总是可以在浏览器中查看表格中的数据,并使用一些内置的可视化工具。

#7 Quandl

https://www.quandl.com/

对于那些想要尝试机器学习项目的人来说,这个可能更有价值。问题是您处理ML项目时,需要清理数据集以使用来自数据集其他列的信息来预测列。实际上如果要自己动手,这样的动作需要花费很多时间。

值得庆幸的是,Quandl是一个经济和财务数据库,提供已经清理过的数据。更重要的是,有一个有趣的目标列可以进行预测,其他变量对目标列有一些解释力。总而言之,Quandl将是测试机器学习算法的最佳选择,不会浪费时间来清理数据。

PS。其中一些信息是免费的,但许多数据集需要购买。

#8 Reddit或r /数据集

https://www.reddit.com/r/datasets/

每个人都知道Reddit是一个受欢迎的社交新闻网站,但也有一节致力于分享有趣的数据集。这种讨论板被称为subreddits,或/ r /数据集 - 一个分享,查找和讨论数据集的地方。这些数据集的范围和质量差异很大,因为它们都是用户提交的,但它们通常非常有趣且细致入微。

还有其他认为有趣的subreddits:

r / dataisbeautiful - 一个具有严格目的的美丽名称,提供了大量关于可视化的讨论 - 无论是图表,图表还是地图;

https://www.reddit.com/r/dataisbeautiful/

r / learnpython- 建议在学习过程中逐步掌握这项技能;

https://www.reddit.com/r/learnpython/

r / learnmachinelearning - 很明显可以跟踪最新的信息和讨论。

https://www.reddit.com/r/learnmachinelearning/

#9 UCI机器学习库

https://archive.ics.uci.edu/ml/index.php

UCI机器学习库显然是最着名的数据存储库。如果正在寻找与机器学习库相关的数据集,通常是第一个去的地方。这些数据集包括各种各样的数据集,从流行的数据集,如Iris和泰坦尼克号的生存,到最近的贡献,如空气质量和GPS轨迹。存储库包含350多个数据集,其中包含域名,问题目的(分类/回归)等标签。可以使用这些过滤器来识别您需要的好数据集。

#10 学术洪流

http://academictorrents.com/

最后但并非最不重要的。Academic Torrents是研究人员共享数据的主流而不强大的平台。根据创作者的说法,该网站试图通过BitTorrent提供学术数据集和论文。事实是在很高的水平上实现了目标。

因此,这是数据聚合器,主要侧重于从科学论文中共享数据集。它由两部分组成:用户可以搜索数据集的站点,以及使共享数据可扩展且快速的BitTorrent主干。它具有各种不寻常的(通常是大的)数据集,尽管在不阅读原始论文和/或在相关科学领域拥有一些专业知识的情况下获取特定数据集的上下文有时会很棘手。

数据集的重要性

成为数据科学专家还有很长的路要走。这不是你]可以在一夜之间学到的东西。即使在一个月内你]也无法学到这些东西!但是你]可以通过每天做更多的事情来加速这个过程。不要害怕再往前走,不要害怕在这里和现在练习]技能。

在处理以数据为中心的项目时,只需使用这些网站即可。其中大部分是免费提供的 - 无论是通过试用期还是完全开放获取。这是获得经验的最简单机会,所以现在轮到你了解并做正确的事情。

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren),作者:代码医生

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Torchmeta:PyTorch的元学习库

    元学习研究和开放源代码库提供了一种通过标准化基准和各种可用数据集对不同算法进行详细比较的方法,从而可以完全控制此评估的复杂性。但是,大多数在线可用的代码都有以下...

    代码医生工作室
  • Lyft开源L5自动驾驶数据集:55000个人工标注的3D注释框架,还有高清空间语义地图

    这份L5数据集内容丰富,加入了原始传感摄像头和激光雷达收集到的内容,内含55000个人类标注的3D注释框架,还有高清空间语义地图。

    代码医生工作室
  • 网络上最大的机器学习数据集列表

    包含CV、NLP、Self-driving、QA、Audio、Medical等,随机列出10个数据集供预览。

    代码医生工作室
  • 数据派研究部招新 | 打比赛、做项目、内容产出...等你来~

    我想,你来到了这里,就说明你对未来还抱有激情和希望。在2018年新年的时候,我曾收到这样一句祝福,现在也分享给大家——鲜衣怒马,不负韶华。

    数据派THU
  • 走出大数据的“大”的误区

    “大数据”已经成为21世纪商业的代名词。聚拢大量数据的浪潮正变得愈加猛烈。公司无论所属行业和规模大小,都竭力想要实现招聘自动化,将流程数字化,并且打造出客户和求...

    华章科技
  • 一张图告诉你如何8步炼成数据科学家

    OK,这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成。

    华章科技
  • 快看,大数据发展的五个新趋势!

    随着人工智能和物联网日益进步而逐步取得主导地位,更多的企业比以往更容易受到数据的驱动,大数据将深刻影响商业世界的每一个角落…… 机器学习技术正在迅速发展,数字业...

    企鹅号小编
  • 天龙八部:一张图告诉你如何8步炼成数据科学家

    如何成为一个数据科学家?不少刚刚接触这个领域的探索者都在寻找一条尽可能正确的道路。 OK, 这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足...

    小莹莹
  • 【干货收藏】不要担心没数据!史上最全数据集网站汇总

    本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。

    机器学习算法工程师
  • 不要担心没数据!史上最全数据集网站汇总

    本文将为您提供一个网站 资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。

    小莹莹

扫码关注云+社区

领取腾讯云代金券