萝卜哥整理了24个免费数据集,包括以下多个领域
相信总有一款是适合你的哦
数据可视化项目的良好数据集是公开发布数据的新闻网站,他们通常会提供清理过的数据,并且已经有了可以复制或改进的图表,我们既可以从这些图表中找寻灵感,也可以对这些图表直接进行二次改进
FiveThirtyEight 是由 Nate Silver 创建的一个非常受欢迎的互动新闻和体育网站。
FiveThirtyEight 将其文章中使用的数据集开源在 GitHub 上,所有人都可以免费获得
❝https://github.com/fivethirtyeight/data
以下是一些示例:
BuzzFeed 最初是一家低质量文章的供应商,但后来发展起来,现在写了一些调查文章,如《统治世界的法院》和《邓特·霍德的短暂一生》
BuzzFeed 同样将其文章中使用的数据集开源在Github上
❝https://github.com/BuzzFeedNews
以下是一些示例:
NASA 是一个公共资助的政府组织,因此其所有数据都是公开的。它有自己的网站,在那里任何人都可以下载与地球科学相关的数据集和与空间相关的数据。例如,我们甚至可以在地球科学网站上按格式排序,以查找所有可用的CSV数据集。
有时我们只想处理大型数据集,最终结果与读取和分析数据的过程无关。
寻找大型公共数据集的好地方是云托管提供商,如亚马逊和谷歌。他们有托管数据集的动机,因为他们可以让我们使用他们的基础设施对其进行分析(并支付使用费用)。
亚马逊在其亚马逊网络服务平台上提供了大量大型的数据集,我们可以下载数据并在自己的计算机上使用它,或者通过 EMR 使用 EC2 和 Hadoop 分析云中的数据。
Amazon 有一个页面,列出了所有可供浏览的数据集。当然我们需要一个 AWS 帐户,Amazon 为新帐户提供了一个免费访问层,使我们能够免费浏览数据。
❝https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1
以下是一些示例:
就像亚马逊一样,谷歌也有云托管服务,称为谷歌云平台。使用 GCP,我们可以使用名为 BigQuery 的工具来探索大型数据集。
谷歌同样在一个页面上列出所有数据集,也需要注册一个 GCP 帐户,同时可以对前 1TB 的数据进行免费的查询。
❝https://cloud.google.com/bigquery/public-data/
以下是一些示例:
维基百科是一个免费的、在线的、社区编辑的百科全书。维基百科包含了惊人的知识广度,包含了从奥斯曼哈布斯堡战争到伦纳德·尼莫伊的所有页面。作为维基百科推进知识的承诺的一部分,他们免费提供内容,并定期生成网站上所有文章的转储。此外,维基百科还提供了编辑历史和活动,因此我们可以跟踪某个主题的页面是如何随着时间的推移而演变的,以及谁对此做出了贡献。
我们可以在维基百科网站上找到各种下载数据的方法,还可以找到以各种方式重新格式化数据的脚本。
❝https://en.wikipedia.org/wiki/Wikipedia:Database_download
以下是一些示例:
在进行机器学习项目时,我们希望能够从数据集中的其他列预测列。
有一些专门用于机器学习的在线数据集存储库,这些数据集通常会提前清理,并允许快速测试算法。
Kaggle 是一个数据科学社区,主办机器学习比赛。网站上有各种外部提供的有趣数据集,我们可以下载其中任何一个的数据,但必须注册Kaggle 并接受比赛的服务条款。
❝https://www.kaggle.com/datasets
以下是一些示例:
UCI 机器学习库是网络上最古老的数据集来源之一。因为数据集是用户提供的,因此文档的结构和整齐度都有比较大的差别,但绝大多数数据集都是干净的,可以应用机器学习。在寻找有趣的数据集时,UCI是一个很好的一个网站。
❝https://archive.ics.uci.edu/ml/datasets.php
以下是一些示例:
Quandl 是一个经济和金融数据存储库,其中一些信息是免费的,但许多数据集需要购买。Quandl 对于建立模型预测经济指标或股票价格很有用。由于有大量可用数据集,因此可以构建一个复杂的模型,使用许多数据集预测另一个数据集的值。
❝https://www.quandl.com/browse
以下是一些示例:
数据清理相关的数据集通常位于数据集的聚合器上,这些聚合器往往拥有来自多个来源的数据集,没有太多的统一管理。过多的管理给我们带来了过于整洁的数据集,很难对其进行全面清理。
data.world 将自己描述为“数据人的社交网络”,但可以更准确地描述为“GitHub for data”,它是一个可以搜索、复制、分析和下载数据集的地方。此外我们可以将数据进行上载,并利用它与他人合作。
事实上,他们已经构建了一些工具来简化数据处理,我们可以在他们的界面中编写SQL查询来浏览数据并连接多个数据集。他们还提供了用于R和Python的SDK,以便在选择的工具中更容易地获取和使用数据
❝https://www.data.world/
data.gov 是一个相对较新的网站,是美国政府开放努力的一部分,它使从多个美国政府机构下载数据成为可能。数据范围从政府预算到学校绩效分数,许多数据需要额外的研究,有时很难确定哪个数据集是“正确的”版本。任何人都可以下载数据,尽管有些数据集需要额外的环节,例如同意许可协议等。
❝https://www.data.gov/
以下是一些示例:
世界银行是一个向发展中国家提供贷款和咨询的全球发展组织,世界银行定期资助发展中国家的项目,然后收集数据以监测这些项目的成功与否。
❝https://data.worldbank.org/
以下是一些示例:
Reddit 是一个流行的社区讨论网站,它有一个专门用于共享有趣数据集的功能,称为数据集subreddit或/r/datasets。这些数据集的范围变化很大,因为它们都是用户提交的,但它们往往都非常有趣和微妙。
❝https://www.reddit.com/r/datasets/top/?sort=top&t=all
以下是一些示例:
Academic Torrents 是一个比较新网站,旨在共享科学论文的数据集。这是一个一直在更新的网站,所以很难说出最常见的数据集类型是
❝https://academictorrents.com/browse.php?cat=6
以下是一些示例:
在构建数据科学项目时,下载数据集并对其进行处理是非常常见的。然而,随着在线服务生成越来越多的数据,实时生成的数据越来越多,无法以数据集的形式提供。这方面的一些示例包括推特推文数据和股价数据。
推特有一个很好的流媒体 API,使得过滤和流媒体推文相对简单。有很多有趣的数据可以探索——可以找出哪些州最快乐,哪些国家使用最复杂的语言等等。
❝https://dev.twitter.com/streaming/overview
GitHub 有一个 API,允许我们访问存储库活动和代码。我们可以构建一个系统来自动为代码质量评分,或者了解代码在大型项目中是如何随着时间演变的。
❝https://developer.github.com/v3/
Wunderground 有一个天气预报 API,每天可以释放多达500个 API 调用。我们可以使用这些调用来建立一组历史天气数据,并预测明天的天气。
❝https://www.wunderground.com/weather/api/
世界卫生组织(WHO)在全球卫生观察站(GHO)维护着一个关于全球卫生的大型数据集,该数据集包括世界卫生组织关于新冠肺炎全球大流行的所有数据。全球卫生组织提供了关于抗菌药物耐药性、痴呆症、空气污染和免疫接种等主题的各种数据。
我们可以在GHO上找到几乎所有与健康相关的主题的数据,这使得它成为健康领域数据科学家极为宝贵的免费数据集资源。
❝https://www.who.int/data/collections
皮尤研究中心以政治和社会科学研究著称,为了进一步研究和公开讨论,他们在一段时间后,就会将所有数据集公开下载以进行二次分析。
我们可以从美国政治、新闻和媒体、互联网和技术、科学和社会、宗教和公共生活等方面的数据集中进行选择。
❝https://www.pewresearch.org/download-datasets/
气候变化目前是一个非常热门的话题,想要分析天气和气候数据的数据科学家可以访问美国国家环境信息中心(NCEI)的大型数据集。
❝https://www.ncdc.noaa.gov/cdo-web/datasets
互联网上充满了可以使用的很酷的数据集,尤其是对于个人数据,更具有独特性。
以下是一些流行的网站,可以下载并使用个人生成的数据。
亚马逊允许我们下载个人消费数据、订单历史等。可以使用自己的亚马逊数据来分析自己的消费习惯,也是很有趣呀。
❝https://www.amazon.com/gp/b2b/reports?ref_=ya_d_l_order_reports&
Facebook 还允许我们下载个人活动数据,可以使用自己的个人 Facebook 数据,来分析自己的个性行为。
❝https://www.facebook.com/dyi/?referrer=yfi_settings
Netflix 允许我们请求下载自己的数据,虽然他们允许下载的数据相当有限,但它仍然适用于某些类型的项目和分析。
❝https://www.netflix.com/account/getmyinfo
严格来说,这不是一个数据集,而是一个查找相关数据集的搜索工具。
谷歌是一个数据发电站,所以他们的搜索工具在寻找特定数据集的其他方法上脱颖而出是有道理的。
我们所需要做的就是转到谷歌数据集搜索,并在搜索栏中键入与我们要查找的数据集相关的关键字或短语。搜索结果将列出 Google 上针对特定搜索词索引的所有数据集。这些数据集通常来自高质量的来源,其中一些是免费的,另一些是收费或订阅的。
❝https://datasetsearch.research.google.com/