【资源】想进行数据科学项目却没有数据集?25个数据集网站汇总

原作者 Kunal Jain

编译  Mika

本文为 CDA 数据分析师原创作品,转载需授权

前言

如果用一个句子总结学习数据科学的本质,那就是:

学习数据科学的最佳方法就是应用数据科学。

如果你是初学者,那么每完成一个项目你的能力就会大大提高。如果你是有经验的数据科学从业者,那么你应该懂这个道理。

但是,当我向人们给出这个建议时,他们通常会问:我可以在哪里获得练习的数据集呢? 他们没有意识到存在大量开放的数据集可使用。他们没有意识到通过这些项目,能够不断学习,从而促进自己的职业发展。

如果你认为这符合你的情况,那么你来对地方了!本文将列出一些数据集网站、资源的列表,你可以从使用当中的数据来进行自己的 pet project,甚至创造自己的产品。

如何使用这些资源?

如何使用这些数据源是没有限制的。唯一限制你的是创造力和实际应用。

使用它们的最简单方法是进行数据项目并发布到网上。这不仅可以提高数据和可视化技能,还可以改善你的结构化思维。

另一方面,如果你打算或正在处理基于数据的产品,这些数据集可以通过提供新的输入数据来增加产品的活力。

我已经将这些资源分类,从简单,通用和易于处理的数据集,到大型、行业相关的数据集。接着,介绍用于特定目的的数据集:文本挖掘,图像分类,推荐引擎等。

(友情提示:以下网站均需翻墙)

1. 简单、通用的数据集

• data.gov

( https://www.data.gov/ )

美国政府公开数据。该网站在发布时包含超过 19 万个数据点。这些数据包括气候,教育,能源,金融等领域的数据。

• data.gov.in

( https://data.gov.in/ )

印度政府公开数据。可以查找各行业,气候,医疗保健等数据。还可以在这里得到一些可视化的灵感。根据所在国家,你也可以从其他几个网站上查看类似的网站。

• World Bank

( http://data.worldbank.org/ )

世界银行的开放数据。该平台提供 Open Data Catalog,世界发展指数,教育指数等几个工具。

• RBI

( https://rbi.org.in/Scripts/Statistics.aspx )

印度储备银行提供的数据。包括国际收支,银行业务和一些产品使用的货币市场运作指标。

• Five Thirty Eight Datasets

( https://github.com/fivethirtyeight/data )

Five Thirty Eight,亦称作 538,专注与民意调查分析,政治,经济与体育的博客。该数据集为 Five Thirty Eight Datasets 使用的数据集。每个数据集包括数据,解释数据的字典和Five Thirty Eight 文章的链接。如果你想学习如何创建数据故事,不能错过。

2. 大型数据集

• Amazon Web Services(AWS)datasets

( https://aws.amazon.com/cn/datasets/ )

亚马逊提供了一些大数据集,可以在他们的平台或本地计算机上使用。还可以通过 EMR,使用 EC2 和 Hadoop 在云端分析数据。亚马逊的热门数据集包括完整的 Enron 电子邮件数据集,Google Books n-gram,NASA NEX 数据集,百万歌曲数据集等。

• Google datasets

( https://cloud.google.com/bigquery/public-data/ )

Google 提供了一些数据集作为其 Big Query 工具的一部分。包括 GitHub 公共资料库的数据,Hacker News 的所有故事和评论。

• Youtube labeled Video Dataset

( https://research.google.com/youtube8m/ )

几个月前,谷歌研究小组发布了 YouTube 标签数据集,该数据集由 800 万个 YouTube 视频 ID 和 4800 个视觉实体的相关标签组成。这来自数十亿帧的预先计算和最先进的视觉功能。

3. 预测建模与机器学习数据集

• UCI Machine Learning Repository

( https://archive.ics.uci.edu/ml/datasets.html )

UCI 机器学习存储库显然是最着名的数据存储库。如果你正在寻找与机器学习库相关的数据集,那么这是不可错过的资源。当中包括各种各样的数据集,从泰坦尼克号的幸存数据,到最近的空气质量、GPS 轨迹等待。存储库包含超过 350 个数据集,其中包含域名,问题目的(分类/回归)等标签。你可以使用这些过滤器来确定需要的数据。

• Kaggle

( https://www.kaggle.com/datasets )

Kaggle 推出了一个平台,人们上传数据集,其他社区成员可以投票并在其上运行脚本。共有 350 多个数据集 ,特征数据集超过 200 个。

• Analytics Vidhya

(https://datahack.analyticsvidhya.com/contest/all/ )

你可以参与和下载我们的练习问题以及黑客马拉松问题的数据集。数据集基于现实生活中的行业问题,并且相对较小,因为它们是针对 2-7 天的黑客马拉松活动。

• Quandl

( https://www.quandl.com/ )

Quandl 通过起网站、API 或一些工具的直接集成提供了不同来源的财务、经济和替代数据。他们的数据集分为开放和付费。所有开放数据集为免费,但高级数据集需要付费。通过搜索仍然可以在平台上找到优质数据集。例如,来自印度的证券交易所数据是免费的。

• Past KDD Cups

( http://www.kdd.org/kdd-cup )

KDD Cup 是 ACM Special Interest Group 组织的年度数据挖掘和知识发现竞赛。

• Driven Data

( https://www.drivendata.org/ )

Driven Data 发现运用数据科学带来积极社会影响的现实问题。然后,他们为数据科学家组织在线模拟竞赛,从而开发出最好的模型来解决这些问题。

4. 图像分类数据集

• The MNIST Database

( http://yann.lecun.com/exdb/mnist/ )

最流行的使用手写数字的图像识别的数据集。包括 6 万个火车示例和一个 1 万个示例的测试集。这通常是进行图像识别的第一个数据集。

• Chars74K

(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )

如果你已经掌握手写数字,可以进一步使用该数据集。当中包括自然图像中的字符识别,包含 74,000 个图像。

• Frontal Face Images

(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )

如果你已经完成了前两个项目,并且能够识别数字和字符,那么在图像识别的下一个挑战就是正面脸部图像。这些图像由 CMU & MIT 收集,并排列在四个文件夹中。

• ImageNet

( http://image-net.org/ )

是时候构建一些通用的东西了。根据 WordNet 层次的图像数据库(目前仅为名词)。层次结构的每个节点都被描述为数百个图像。目前,这个集合平均每个节点有超过 500 个图像,并且在增加中。

5. 文本分类数据集

• Spam – Non Spam

(http://www.esp.uem.es/jmgomez/smsspamcorpus/)

区分短信是否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信进行分类。

• Twitter Sentiment Analysis

(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)

该数据集包含 1578627 个分类推文,每行被标记为1的积极情绪,0位负面情绪。数据依次基于 Kaggle 比赛和 Nick Sanders 的分析。

• Movie Review Data

(http://www.cs.cornell.edu/People/pabo/movie-review-data/)

本网站提供电影评论文件的集合,标注其总体情绪极性(正面或负面)和主观评分(例如“两星半”)等。

6. 推荐引擎的数据集

• MovieLens

( https://grouplens.org/ )

MovieLens 是一个帮助人们查找电影的网站。它有成千上万的注册用户。他们进行自动内容推荐,推荐界面,基于标签的推荐页面等在线实验。这些数据集可供下载,可用于创建自己的推荐系统。

• Jester

(http://www.ieor.berkeley.edu/~goldberg/jester-data/)

在线笑话推荐系统。

7. 来自各种来源的数据集网站

• KDNuggets

(http://www.kdnuggets.com/datasets/index.html)

KDNuggets 的数据集页面一直是人们搜索数据集的参考。列表全面,但是某些来源不再提供数据集。因此,需要谨慎选择数据集和来源。

• Awesome Public Datasets

(https://github.com/caesar0301/awesome-public-datasets)

具有按域分类的数据集列表的 GitHub 存储库。数据集被整齐地划分在不同的领域,然而没有关于存储库本身的数据集的描述

• Reddit Datasets Subreddit

(https://www.reddit.com/r/datasets/)

由于这是一个社区驱动的论坛,可能与之前的两个数据源相比会一些混乱。但是,你可以根据热度和投票来对数据集进行排序,以查看最流行的数据集。另外,它还有一些有趣的数据集和讨论。

结语

我希望这份资源清单对那些想做项目的人有所帮助。这绝对是一个金矿。

ref:

https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-06-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【数说】47万微信群、2亿微信用户,背后数字规律揭秘

微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学、腾讯公司和香...

2.4K50
来自专栏媒矿工厂

PCS2018:360度全景视频流媒体传输系统【附PPT全文】

作为图像/视频编码领域的顶级会议之一,第33届图像编码研讨会(PCS,Picture Coding Symposium)于2018年6月24号至6月27号在加州...

26230
来自专栏专知

势头强劲: PyTorch周年大事记盘点

【导读】 1月19日,PyTorch团队对PyTorch发布一年来的成长轨迹做了总结。在过去一年里,PyTorch资源包的下载量超50万次、PyTorch频频出...

36850
来自专栏ATYUN订阅号

Clarifai的AI可检测图像和视频中的不合规内容

在互联网上过滤色情,毒品,血腥和其他令人反感的内容并不容易。Facebook目前在全球拥有7500名内容版主,而2017年5月为4500名。而在4月份,谷歌旗下...

14620
来自专栏数据科学与人工智能

【智能】如何成为数据科学家:权威指南

你好!我是Jose Portilla,Udemy的讲师,有超过25万名学生注册了各种各样的课程,包括Python的数据科学和机器学习、R编程的数据科学、Pyth...

11830
来自专栏计算机视觉战队

DL框架的未来发展,TensorFlow/MXNet/Torch, 选哪个?

DL framework的学习成本还是不小的,以后未来的发展来看,你建议选哪个? 请主要对比分析下4个方面吧: 1. 实现新计算单元(layer)和网络结构的便...

59990
来自专栏新智元

【开源】北大团队大规模稀疏数据机器学习库xLearn,c++ trending 已超TensorFlow

编辑:弗格森 【新智元导读】 机器学习博士马超近日在微博上介绍他和导师肖臻教授一起开发的一款专门针对大规模稀疏数据的机器学习库xLearn并开源。并称, vi...

49180
来自专栏数据科学与人工智能

【数据可视化】大牛深度解析大数据可视化、可视分析案例

大数据可视化是个热门话题,在信息安全领域,也由于很多企业希望将大数据转化为信息可视化呈现的各种形式,以便获得更深的洞察力、更好的决策力以及更强的自动化处理能力,...

2.1K70
来自专栏AI科技评论

视频 | 憋不出论文怎么办?不如试试这几种办法

AI 科技评论按:这里是,油管 Artificial Intelligence Education 专栏,原作者 Siraj Raval 授权雷锋字幕组编译。 ...

35470
来自专栏灯塔大数据

【揭秘】47万微信群和2亿微信用户背后的数字规律

导读 这是一篇来自清华大学、康奈尔大学、腾讯公司和香港科技大学的研究人员采用“机器学习算法”,分析了47万+微信群、2亿+微信用户、6亿+好友关系和200万+邀...

32840

扫码关注云+社区

领取腾讯云代金券