前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >拥有免费数据集的十大优秀网站

拥有免费数据集的十大优秀网站

作者头像
代码医生工作室
发布2019-07-04 17:15:45
18K1
发布2019-07-04 17:15:45
举报
文章被收录于专栏:相约机器人相约机器人

如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。

使用具有各种主题的免费数据集的所有这些网站具有许多优点。根据他们的不同,可以轻松提升自己的技能,发展自己的工作方式,这在今天非常重要。

#1 data.world

https://data.world/

那么,data.world无疑是一个包含公共数据集的优秀存储库。最欣赏这个地方并建议将其用于其他人的最重要原因是来自多个来源和各种目的(金融,犯罪,经济,推特,美国宇航局等)的各种各样的数据集。

但推荐它并不是一个单一的理由,因为在这里还可以上传数据并与同事或其他用户协作,并相互分享宝贵的见解。在这里可以编写SQL和SPARQL查询,以一次浏览多个文件并连接多个数据集。此外data.world还为R和Python提供了SDK,使其更容易上传,导出和处理数据。

只需创建一个帐户,登录,然后搜索所需的材料即可。所以,是的,实际上这是一个很棒的地方。但是如果仍然有很多有趣的网站,为什么只限于一个地方呢?

#2 Kaggle

https://www.kaggle.com/

另一个找到免费数据集的好地方。总的来说,Kaggle是一个多功能网站,或者最好称之为着名的“数据科学社区”,它不仅提供各种外部共享的有趣数据集,还提供获取新知识和实践技能的材料。通过允许用户与他人共享代码,Kaggle提供了数据空间内的学习最佳实践。惊人的组合,不是吗?

这里的搜索非常简单。只需打开主页,然后在页面顶部找到搜索框即可。然后,使用“in:datasets”标签。例如,要获取有关药物的数据,请在搜索框中输入“药物输入:数据集”。

需要知道的另一个细微差别是Kaggle还举办比赛,如果有一流的模型,可以赢得真钱。可以下载任何一个数据,但必须注册Kaggle并接受竞赛的服务条款。

#3 FiveThirthyEight

https://fivethirtyeight.com/

FiveThirthyEight是推荐的最好的地方之一。它是大量存储免费数据集和专门用于数据科学的丰富信息文章的完美结合。坦率地说,现在可以停止阅读帖子,只使用这个网站。但是实际上,在开玩笑,因为每个地方都有自己的特点和可能性。

总而言之,FiveThirthyEight可以为有抱负的数据科学家和材料提供大量有趣的信息。他们使用硬数据和统计分析来讲述有关政治,体育,社会问题等的故事。

需要了解的关于FiveThirthyEight的事实是,该服务使其文章中使用的数据集可以在Github上以及在其自己的数据门户上在线获得。这些数据的范围从哪些州有最差的驱动因素到不同大学专业的经济价值。他们将大量数据公开给公众,这意味着可以自己下载和播放源数据!

https://github.com/fivethirtyeight/data

#4 BuzzFeed

https://www.buzzfeed.com/

可能会惊讶为什么这个网站在这里,乍一看,它与数据科学无关。嗯是的,BuzzFeed是一家提供新闻和娱乐内容的跨平台数字媒体公司。但是事实上这是多功能服务,它保留了所有有趣和有用的选项,正如可能猜到的那样,免费数据集也不例外。

就个人而言,BuzzFeed是搜索机器学习和数据科学公共数据集的绝佳来源,可以在线获取不同主题 - 从顶级健身趋势和啤酒配方到农药中毒率。可以在Github上找到所有这些材料。

https://github.com/BuzzFeedNews/everything

顺便说一句,BuzzFeed还为有抱负的数据科学家提供了很多其他材料,如分析,库,工具,指南等等。换句话说,几乎可以在任何场合使用它。

#5 Data.gov

https://www.data.gov/

另一个快速而简单的网站 - Data.gov是一个大型数据集聚合器,是美国政府开放数据的所在地。有14个不同的主题(从农业,公共安全到地方政府),因此很有可能选择非常有趣的数据集。更重要的是,这是一个数据驱动的新闻和讲故事的好网站。

这里的搜索很简单,可以直接浏览数据集,无需注册。可以应用额外的过滤器,如主题类别,位置,标签,文件格式,组织等,并使搜索更有效。

#6 Socrata OpenData

https://opendata.socrata.com/

Socrata OpenData是一个包含多个数据集的门户,可以在浏览器中进行探索或下载以进行可视化。广泛的信息使其成为持续好奇的数据科学家 - 实践者的有吸引力的资源。

但是需要记住有关此站点的一个细微差别。存在不良的材料管理,这意味着您必须对可用的内容进行分类,以查找干净且最新的数据。顺便说一下,它并不是一个很大的缺点,因为总是可以在浏览器中查看表格中的数据,并使用一些内置的可视化工具。

#7 Quandl

https://www.quandl.com/

对于那些想要尝试机器学习项目的人来说,这个可能更有价值。问题是您处理ML项目时,需要清理数据集以使用来自数据集其他列的信息来预测列。实际上如果要自己动手,这样的动作需要花费很多时间。

值得庆幸的是,Quandl是一个经济和财务数据库,提供已经清理过的数据。更重要的是,有一个有趣的目标列可以进行预测,其他变量对目标列有一些解释力。总而言之,Quandl将是测试机器学习算法的最佳选择,不会浪费时间来清理数据。

PS。其中一些信息是免费的,但许多数据集需要购买。

#8 Reddit或r /数据集

https://www.reddit.com/r/datasets/

每个人都知道Reddit是一个受欢迎的社交新闻网站,但也有一节致力于分享有趣的数据集。这种讨论板被称为subreddits,或/ r /数据集 - 一个分享,查找和讨论数据集的地方。这些数据集的范围和质量差异很大,因为它们都是用户提交的,但它们通常非常有趣且细致入微。

还有其他认为有趣的subreddits:

r / dataisbeautiful - 一个具有严格目的的美丽名称,提供了大量关于可视化的讨论 - 无论是图表,图表还是地图;

https://www.reddit.com/r/dataisbeautiful/

r / learnpython- 建议在学习过程中逐步掌握这项技能;

https://www.reddit.com/r/learnpython/

r / learnmachinelearning - 很明显可以跟踪最新的信息和讨论。

https://www.reddit.com/r/learnmachinelearning/

#9 UCI机器学习库

https://archive.ics.uci.edu/ml/index.php

UCI机器学习库显然是最着名的数据存储库。如果正在寻找与机器学习库相关的数据集,通常是第一个去的地方。这些数据集包括各种各样的数据集,从流行的数据集,如Iris和泰坦尼克号的生存,到最近的贡献,如空气质量和GPS轨迹。存储库包含350多个数据集,其中包含域名,问题目的(分类/回归)等标签。可以使用这些过滤器来识别您需要的好数据集。

#10 学术洪流

http://academictorrents.com/

最后但并非最不重要的。Academic Torrents是研究人员共享数据的主流而不强大的平台。根据创作者的说法,该网站试图通过BitTorrent提供学术数据集和论文。事实是在很高的水平上实现了目标。

因此,这是数据聚合器,主要侧重于从科学论文中共享数据集。它由两部分组成:用户可以搜索数据集的站点,以及使共享数据可扩展且快速的BitTorrent主干。它具有各种不寻常的(通常是大的)数据集,尽管在不阅读原始论文和/或在相关科学领域拥有一些专业知识的情况下获取特定数据集的上下文有时会很棘手。

数据集的重要性

成为数据科学专家还有很长的路要走。这不是你]可以在一夜之间学到的东西。即使在一个月内你]也无法学到这些东西!但是你]可以通过每天做更多的事情来加速这个过程。不要害怕再往前走,不要害怕在这里和现在练习]技能。

在处理以数据为中心的项目时,只需使用这些网站即可。其中大部分是免费提供的 - 无论是通过试用期还是完全开放获取。这是获得经验的最简单机会,所以现在轮到你了解并做正确的事情。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档