前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >假期还要卷,24个免费数据集送给你

假期还要卷,24个免费数据集送给你

作者头像
周萝卜
发布2022-12-27 15:02:35
1.2K0
发布2022-12-27 15:02:35
举报
文章被收录于专栏:萝卜大杂烩

萝卜哥整理了24个免费数据集,包括以下多个领域

  • 数据科学
  • 数据可视化
  • 数据清理
  • 机器学习
  • 其他

相信总有一款是适合你的哦

数据可视化

数据可视化项目的良好数据集是公开发布数据的新闻网站,他们通常会提供清理过的数据,并且已经有了可以复制或改进的图表,我们既可以从这些图表中找寻灵感,也可以对这些图表直接进行二次改进

FiveThirtyEight

FiveThirtyEight 是由 Nate Silver 创建的一个非常受欢迎的互动新闻和体育网站。

FiveThirtyEight 将其文章中使用的数据集开源在 GitHub 上,所有人都可以免费获得

❝https://github.com/fivethirtyeight/data

以下是一些示例:

  • 航空公司安全-包含各航空公司的事故信息(https://github.com/fivethirtyeight/data/tree/master/airline-safety)
  • 美国天气历史-美国历史天气数据(https://github.com/fivethirtyeight/data/tree/master/us-weather-history)
  • 研究药物——关于美国服用阿地拉尔的患者的数据(https://github.com/fivethirtyeight/data/tree/master/study-drugs)

BuzzFeed

BuzzFeed 最初是一家低质量文章的供应商,但后来发展起来,现在写了一些调查文章,如《统治世界的法院》和《邓特·霍德的短暂一生》

BuzzFeed 同样将其文章中使用的数据集开源在Github上

❝https://github.com/BuzzFeedNews

以下是一些示例:

  • 联邦监视飞机-包含用于国内监视的飞机的数据(https://github.com/BuzzFeedNews/2016-04-federal-surveillance-planes)
  • 寨卡病毒-寨卡病毒爆发地理数据(https://github.com/BuzzFeedNews/zika-data)
  • 枪支背景调查——对试图购买枪支的人进行背景调查的数据(https://github.com/BuzzFeedNews/nics-firearm-background-checks)

NASA

NASA 是一个公共资助的政府组织,因此其所有数据都是公开的。它有自己的网站,在那里任何人都可以下载与地球科学相关的数据集和与空间相关的数据。例如,我们甚至可以在地球科学网站上按格式排序,以查找所有可用的CSV数据集。

数据处理

有时我们只想处理大型数据集,最终结果与读取和分析数据的过程无关。

寻找大型公共数据集的好地方是云托管提供商,如亚马逊和谷歌。他们有托管数据集的动机,因为他们可以让我们使用他们的基础设施对其进行分析(并支付使用费用)。

AWS Public Data sets

亚马逊在其亚马逊网络服务平台上提供了大量大型的数据集,我们可以下载数据并在自己的计算机上使用它,或者通过 EMR 使用 EC2 和 Hadoop 分析云中的数据。

Amazon 有一个页面,列出了所有可供浏览的数据集。当然我们需要一个 AWS 帐户,Amazon 为新帐户提供了一个免费访问层,使我们能够免费浏览数据。

❝https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1

以下是一些示例:

  • GoogleBooks中的n-gram列表-一大组书中的常见单词和单词组(https://aws.amazon.com/datasets/google-books-ngrams/)
  • 通用爬网语料库——来自50多亿网页的爬网数据(https://aws.amazon.com/public-data-sets/common-crawl/)
  • 陆地卫星图像-中等分辨率的地球表面卫星图像(https://aws.amazon.com/public-data-sets/landsat/)

Google Public Data sets

就像亚马逊一样,谷歌也有云托管服务,称为谷歌云平台。使用 GCP,我们可以使用名为 BigQuery 的工具来探索大型数据集。

谷歌同样在一个页面上列出所有数据集,也需要注册一个 GCP 帐户,同时可以对前 1TB 的数据进行免费的查询。

❝https://cloud.google.com/bigquery/public-data/

以下是一些示例:

  • 美国名称-包含1879年至2015年美国所有社会保障名称申请(https://cloud.google.com/bigquery/public-data/usa-names)
  • Github Activity-包含280多万个公共Github存储库上的所有公共活动(https://cloud.google.com/bigquery/public-data/github)
  • 历史天气——1929年至2016年9000个NOAA气象站的数据(https://cloud.google.com/bigquery/public-data/noaa-gsod)

Wikipedia

维基百科是一个免费的、在线的、社区编辑的百科全书。维基百科包含了惊人的知识广度,包含了从奥斯曼哈布斯堡战争到伦纳德·尼莫伊的所有页面。作为维基百科推进知识的承诺的一部分,他们免费提供内容,并定期生成网站上所有文章的转储。此外,维基百科还提供了编辑历史和活动,因此我们可以跟踪某个主题的页面是如何随着时间的推移而演变的,以及谁对此做出了贡献。

我们可以在维基百科网站上找到各种下载数据的方法,还可以找到以各种方式重新格式化数据的脚本。

❝https://en.wikipedia.org/wiki/Wikipedia:Database_download

以下是一些示例:

  • 来自维基百科的所有图像和其他媒体-维基百科的所有图像及其他媒体文件(https://meta.wikimedia.org/wiki/Mirroring_Wikimedia_project_XML_dumps#Media0)
  • 完整网站转储-维基百科上各种格式的内容(https://dumps.wikimedia.org/)

机器学习

在进行机器学习项目时,我们希望能够从数据集中的其他列预测列。

有一些专门用于机器学习的在线数据集存储库,这些数据集通常会提前清理,并允许快速测试算法。

Kaggle

Kaggle 是一个数据科学社区,主办机器学习比赛。网站上有各种外部提供的有趣数据集,我们可以下载其中任何一个的数据,但必须注册Kaggle 并接受比赛的服务条款。

❝https://www.kaggle.com/datasets

以下是一些示例:

  • 卫星照片顺序-是地球卫星照片的数据集,其目标是预测哪些照片拍摄得比其他照片更早(https://www.kaggle.com/c/draper-satellite-image-chronology)
  • 制造过程故障-制造过程中测量的变量数据集,目标是预测制造故障(https://www.kaggle.com/c/bosch-production-line-performance)
  • 多项选择题-多项选择题和相应正确答案的数据集,目标是预测任何给定问题的答案(https://www.kaggle.com/c/the-allen-ai-science-challenge)

UCI Machine Learning Repository

UCI 机器学习库是网络上最古老的数据集来源之一。因为数据集是用户提供的,因此文档的结构和整齐度都有比较大的差别,但绝大多数数据集都是干净的,可以应用机器学习。在寻找有趣的数据集时,UCI是一个很好的一个网站。

❝https://archive.ics.uci.edu/ml/datasets.php

以下是一些示例:

  • 电子邮件垃圾邮件-包含电子邮件,以及是否为垃圾邮件的标签(https://archive.ics.uci.edu/ml/datasets/Wineml/datasets/Spambase)
  • 葡萄酒分类-包含178种不同葡萄酒的各种属性(http://archive.ics.uci.edu/ml/datasets/Wine)
  • 太阳耀斑-太阳耀斑的属性,用于预测耀斑的特征(https://archive.ics.uci.edu/ml/datasets/Solar+Flare)

Quandl

Quandl 是一个经济和金融数据存储库,其中一些信息是免费的,但许多数据集需要购买。Quandl 对于建立模型预测经济指标或股票价格很有用。由于有大量可用数据集,因此可以构建一个复杂的模型,使用许多数据集预测另一个数据集的值。

❝https://www.quandl.com/browse

以下是一些示例:

  • 按种族和其他因素划分的创业活动-包含考夫曼基金会关于美国企业家的数据(https://www.quandl.com/search?query=KAUFFMAN)
  • 美国联邦储备委员会数据——来自美联储的美国经济指标(https://www.quandl.com/search?query=FRED)

数据清理

数据清理相关的数据集通常位于数据集的聚合器上,这些聚合器往往拥有来自多个来源的数据集,没有太多的统一管理。过多的管理给我们带来了过于整洁的数据集,很难对其进行全面清理。

data.world

data.world 将自己描述为“数据人的社交网络”,但可以更准确地描述为“GitHub for data”,它是一个可以搜索、复制、分析和下载数据集的地方。此外我们可以将数据进行上载,并利用它与他人合作。

事实上,他们已经构建了一些工具来简化数据处理,我们可以在他们的界面中编写SQL查询来浏览数据并连接多个数据集。他们还提供了用于R和Python的SDK,以便在选择的工具中更容易地获取和使用数据

❝https://www.data.world/

Data.gov

data.gov 是一个相对较新的网站,是美国政府开放努力的一部分,它使从多个美国政府机构下载数据成为可能。数据范围从政府预算到学校绩效分数,许多数据需要额外的研究,有时很难确定哪个数据集是“正确的”版本。任何人都可以下载数据,尽管有些数据集需要额外的环节,例如同意许可协议等。

❝https://www.data.gov/

以下是一些示例:

  • 食品环境地图集-包含关于当地食物选择如何影响美国饮食的数据(https://catalog.data.gov/dataset?q=food+environment+atlas)
  • 学校系统财务——美国学校系统财务调查(https://catalog.data.gov/dataset/annual-survey-of-school-system-finances)
  • 慢性病数据——美国各地慢性病指标的数据(https://catalog.data.gov/dataset?q=chronic+disease+indicators)

The World Bank

世界银行是一个向发展中国家提供贷款和咨询的全球发展组织,世界银行定期资助发展中国家的项目,然后收集数据以监测这些项目的成功与否。

❝https://data.worldbank.org/

以下是一些示例:

  • 世界发展指标——包含国家一级的发展信息(https://data.worldbank.org/data-catalog/world-development-indicators)
  • 教育统计——各国教育数据(https://data.worldbank.org/data-catalog/ed-stats)
  • 世界银行项目成本——世界银行项目及其相应成本的数据(https://www.worldbank.org/projects)

/r/datasets

Reddit 是一个流行的社区讨论网站,它有一个专门用于共享有趣数据集的功能,称为数据集subreddit或/r/datasets。这些数据集的范围变化很大,因为它们都是用户提交的,但它们往往都非常有趣和微妙。

❝https://www.reddit.com/r/datasets/top/?sort=top&t=all

以下是一些示例:

  • 所有Reddit子课程-包含2015年之前的Reddit分课程(https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_sublesson_corpus_now_available_2006/)
  • 危险问题-游戏《危险》节目中的问题和分数(https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/)
  • 纽约市房产税数据-关于纽约市房产和评估价值的数据(https://www.reddit.com/r/datasets/comments/4jjcdx/we_scraped_11_million_property_tax_bills_to/)

Academic Torrents

Academic Torrents 是一个比较新网站,旨在共享科学论文的数据集。这是一个一直在更新的网站,所以很难说出最常见的数据集类型是

❝https://academictorrents.com/browse.php?cat=6

以下是一些示例:

  • 安然电子邮件——安然公司(一家著名的破产公司)高管发来的一系列电子邮件(https://academictorrents.com/details/4697a6e1e7841602651b087d84f904d43590d4ff)
  • 学生学习因素——一组衡量和影响学生学习的因素(https://academictorrents.com/details/e24e083cc337695bb84a2b68707695579c0ab4d8)
  • 新闻文章-包含新闻文章属性和目标变量(https://academictorrents.com/details/95d3b03397a0bafd74a662fe13ba3550c13b7ce1)

流媒体数据

在构建数据科学项目时,下载数据集并对其进行处理是非常常见的。然而,随着在线服务生成越来越多的数据,实时生成的数据越来越多,无法以数据集的形式提供。这方面的一些示例包括推特推文数据和股价数据。

Twitter

推特有一个很好的流媒体 API,使得过滤和流媒体推文相对简单。有很多有趣的数据可以探索——可以找出哪些州最快乐,哪些国家使用最复杂的语言等等。

❝https://dev.twitter.com/streaming/overview

GitHub

GitHub 有一个 API,允许我们访问存储库活动和代码。我们可以构建一个系统来自动为代码质量评分,或者了解代码在大型项目中是如何随着时间演变的。

❝https://developer.github.com/v3/

Wunderground

Wunderground 有一个天气预报 API,每天可以释放多达500个 API 调用。我们可以使用这些调用来建立一组历史天气数据,并预测明天的天气。

❝https://www.wunderground.com/weather/api/

Global Health Observatory

世界卫生组织(WHO)在全球卫生观察站(GHO)维护着一个关于全球卫生的大型数据集,该数据集包括世界卫生组织关于新冠肺炎全球大流行的所有数据。全球卫生组织提供了关于抗菌药物耐药性、痴呆症、空气污染和免疫接种等主题的各种数据。

我们可以在GHO上找到几乎所有与健康相关的主题的数据,这使得它成为健康领域数据科学家极为宝贵的免费数据集资源。

❝https://www.who.int/data/collections

Pew Research Center

皮尤研究中心以政治和社会科学研究著称,为了进一步研究和公开讨论,他们在一段时间后,就会将所有数据集公开下载以进行二次分析。

我们可以从美国政治、新闻和媒体、互联网和技术、科学和社会、宗教和公共生活等方面的数据集中进行选择。

❝https://www.pewresearch.org/download-datasets/

National Climatic Data Center

气候变化目前是一个非常热门的话题,想要分析天气和气候数据的数据科学家可以访问美国国家环境信息中心(NCEI)的大型数据集。

❝https://www.ncdc.noaa.gov/cdo-web/datasets

个人数据

互联网上充满了可以使用的很酷的数据集,尤其是对于个人数据,更具有独特性。

以下是一些流行的网站,可以下载并使用个人生成的数据。

Amazon

亚马逊允许我们下载个人消费数据、订单历史等。可以使用自己的亚马逊数据来分析自己的消费习惯,也是很有趣呀。

❝https://www.amazon.com/gp/b2b/reports?ref_=ya_d_l_order_reports&

Facebook

Facebook 还允许我们下载个人活动数据,可以使用自己的个人 Facebook 数据,来分析自己的个性行为。

❝https://www.facebook.com/dyi/?referrer=yfi_settings

Netflix

Netflix 允许我们请求下载自己的数据,虽然他们允许下载的数据相当有限,但它仍然适用于某些类型的项目和分析。

❝https://www.netflix.com/account/getmyinfo

数据集搜索工具

谷歌数据集搜索

严格来说,这不是一个数据集,而是一个查找相关数据集的搜索工具。

谷歌是一个数据发电站,所以他们的搜索工具在寻找特定数据集的其他方法上脱颖而出是有道理的。

我们所需要做的就是转到谷歌数据集搜索,并在搜索栏中键入与我们要查找的数据集相关的关键字或短语。搜索结果将列出 Google 上针对特定搜索词索引的所有数据集。这些数据集通常来自高质量的来源,其中一些是免费的,另一些是收费或订阅的。

❝https://datasetsearch.research.google.com/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 萝卜大杂烩 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据可视化
    • FiveThirtyEight
      • BuzzFeed
        • NASA
        • 数据处理
          • AWS Public Data sets
            • Google Public Data sets
              • Wikipedia
              • 机器学习
                • Kaggle
                  • UCI Machine Learning Repository
                    • Quandl
                    • 数据清理
                      • data.world
                        • Data.gov
                          • The World Bank
                            • /r/datasets
                              • Academic Torrents
                              • 流媒体数据
                                • Twitter
                                  • GitHub
                                    • Wunderground
                                      • Global Health Observatory
                                        • Pew Research Center
                                          • National Climatic Data Center
                                          • 个人数据
                                            • Amazon
                                              • Facebook
                                                • Netflix
                                                • 数据集搜索工具
                                                  • 谷歌数据集搜索
                                                  相关产品与服务
                                                  云托管 CloudBase Run
                                                  云托管 CloudBase Run(Tencent CloudBase Run,TCBR)是由云开发提供的新一代云原生应用引擎(App Engine 2.0),支持托管任意语言和框架编写的容器化应用。和云开发其他产品(云函数、云数据库、云存储、扩展应用、HTTP 访问服务、静态网站托管等)一起为用户提供云原生一体化开发环境和工具平台,为开发者提供高可用、自动弹性扩缩的后端云服务。
                                                  领券
                                                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档