机器学习项目实践:30+ 必备数据库(预测模型、图像分类、文本分类)

【新智元导读】有了好的数据,机器学习项目也就成功了一半。希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,将对你的技术成长大有益处。

大规模通用数据库:从这里入手

data.gov - 这是美国政府开放数据集总部。这些数据集的主题包括气候、教育、能源、金融和更多领域的数据。

data.gov.in - 这是印度政府公开数据库,你可以在这里查找关于印度各行业、气候、医疗保健等数据。同样,稍微改变后缀,就能查看不同地区国家政府的公开数据库,比如

  • 英国:data.gov.uk
  • 澳大利亚:data.gov.au

当然,也并非全世界国家的公开数据库都是“data.gov”加更改后缀就可以了,比如

  • 加拿大:open.canada.ca
  • 中国:data.stats.gov.cn
  • 法国:etalab.gouv.fr
  • 德国:destatis.de

总之,国家公开数据库相关权威标准,是你进行机器学习项目实践的一个不错的选择。

World Bank - 世界银行的公开数据库。该平台提供了好几个工具,比如开放数据目录(Open Data Catalog)、世界发展指数、教育指数等等。

Five Thirty Eight Datasets - 这里是美国偏政治新闻网站 Five Thirty Eight 在他们的文章中使用的数据集。每个数据集里不仅包括了数据,还有解释这些数据的字典,以及相关报道链接。如果你想学习如何创建数据报道,这是你的最佳选择。

大型数据库:机器学习项目必备

Amazon Web Services (AWS) datasets - 亚马逊提供了一些大数据集,可以在他们的平台或你自己的本地计算机上使用。亚马逊上的热门数据集包括完整的 Enron 电子邮件数据集,Google图书 n-gram,NASA NEX 数据集,Million Songs 数据集等等。

Google datasets - Google提供了几个数据集作为其 Big Query 工具的一部分,包括婴儿名字、GitHub公共存储库的数据、所有来自Hacker News的故事和评论等。

Youtube labeled Video Dataset - 几个月前,谷歌发布了YouTube标记的资料集,其中包含800万个YouTube影片ID和4800个视觉实体的相关标签。不仅如此,这个数据集里面还配备了几十亿帧经过预计算的、最先进的视觉feature。

预测模型与机器学习专用数据库

UCI Machine Learning Repository - UCI机器学习库显然是最著名的数据库,也是寻找与机器学习知识库相关数据集最常去的地方之一。该数据集包括从诸如 Iris 和Titanic 等流行数据集,以及诸如空气质量和GPS轨迹等新建的数据集。UCI机器学习库包含超过350个数据集,其标签分类包括域、目的(分类、回归)。你可以使用这些过滤器找到你所需要的数据集。

Kaggle - Kaggle 提出了一个平台,人们可以在这里捐赠数据集,其他社区成员则可以对这些数据集进行投票或在这些数据集上运行内核/脚本。Kaggle共有超过350个数据集,其中,超过200个作为精选数据集(Featured datasets)。 虽然一些数据集跟其他地方有重复,但在这里我也发现了在其他平台没有的一些有趣的数据集。此外,Kaggle 界面的另一个好处是,您可以在同一界面上查看社区成员的脚本和问题。

Analytics Vidhya - 这是我们自己网站的数据集,包括使用问题数据集和黑客马拉松数据集。这里的数据集都是基于现实生活中的行业问题,并且有专为为期2 - 7天的黑客马拉松的相对较小的数据集。虽然关于真实生活中的实际问题数据集哪里都有,但黑客马拉松比赛之后相关数据集就不可再用。所以,你需要参加黑客马拉松,才能获得相关数据集。

Quandl - Quandl 通过其网站/ API或其他一些工具直接集成金融、财经方面的数据,分为Open 和 Premium 两种。其中,所有 Open 数据集都是免费的。

Past KDD - Cup KDD Cup是由ACM知识发现和数据挖掘特别兴趣小组组织举办的年度数据挖掘和知识发现比赛。这里的存档包括数据集和比赛说明。大多数年份的冠军机器数据库都能在这里找到。

Driven Data - 现实世界实际问题数据库,你可以用它来创造积极的社会影响。Driven Data 举行在线模拟竞赛,从而让参赛者开发出最好的模型来解决这些现实问题。如果你有兴趣使用数据科学对社会做贡献,这就是你该去的地方。

图像分类数据库

MNIST 数据库 - 使用手写数字进行图像识别最流行的数据集,包括 6 万个训练样本和 1 万个示例测试集。MNIST数据库是你用作练习图像识别的第一数据集。

Chars74K - 这是 MNIST 数据库的下一级,其中几包括一些自然图像中字符识别数据集。Chars74K 数据集包含 7.4 万个图像,这也是该数据集名称的由来。

Frontal Face Images - 如果您已经处理过前面的2个项目,并且能够识别数字和字符,那么这里是图像识别中的下一级挑战。这些图像由CMU 和 MIT 整理收集,列在四个文件夹中。

ImageNet - 这个数据集想必不用多做介绍,这里简单说一下。ImageNet 是根据 WordNet 层次结构组织的图像数据库(目前只有名词)。每个节点由数百个图像分层次行描绘。刚想治疗术了; 具有每个节点图像平均超过500个图像(并且持续增加中)。

文本分类数据库

Spam - Non-Spam - 一个有趣的数据集,你需要构建一个分类器将 SMS 分类为垃圾邮件或非垃圾邮件。

Twitter Sentiment Analysis - 该数据集包含超过 157 万条分类过的推文,正面情绪标记为1,负面情绪标记为0。这些数据基于一项 Kaggle 竞赛建立的,作者是Nick Sanders。

Movie Review Data - 提供电影评论文档资料的集合,这些资料根据内容的情绪极性(正面或负面)或主观评价(例如“两颗半星”),以及根据句子的主观性状态(主观或客观 )或极性(polarity)进行了标记。

推荐引擎数据库

MovieLens - 帮人找电影的网站,有上万的注册用户。这些用户会填写 MovieLens 在线问卷,包括自动内容推荐、推荐界面、基于标签的推荐等等。这些数据集可供下载,用于创建你自己的推荐系统。

Jester - 关于在线笑话推荐系统的数据集。

更多数据库资源

KDNuggets - KDNuggets的数据集页面一直是寻找数据集的人的常用参考。这里有一个非常全面的列表,但有些源不再提供数据集。因此,在使用时需要对数据集及源自行判断。

Awesome Public Datasets - GitHub 库,包含按域分类的数据集的完整列表。数据集在各个域中被整齐地分类。但是,没有关于库本身的数据集的描述。

Reddit 数据集 Subreddit - 由于是社区驱动的论坛,这个数据集可能会相对有一点凌乱(与前两个源相比)。但是,你可以按热门程度或投票排序数据集,以查看最受欢迎的数据集。此外,Reddit 网站上还有一些有趣的关于数据集的讨论。

我希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,这将对你的技术成长大有益处。

如果你能想到这些数据集的任何其他应用或知道任何其他流行的资源,欢迎在分下面的评论里分享。

编译来源:https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-12-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【学习】为什么你的数据分析那么好,图表做得那么烂?

导读 所有优秀的数据可视化依赖优异的设计,并非仅仅选择正确的图表模板那么简单。全在于以一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本。当...

3263
来自专栏生信技能树

【好书共享】《R for Data Science》的中译版

这本书将教我们如何用R来做数据科学:学习如何将自己的数据导入R中,把它变成最有用的结构,转换,可视化并对数据进行建模。在这本书中,我们会学习数据科学需要实用技能...

4112
来自专栏数据派THU

19个超赞的数据科学和机器学习工具,编程小白必看!(附资料)

编程是数据科学的一个组成部分。事实上,理解编程逻辑、循环和函数的人更有可能成为成功的数据科学家。但那些在学校里从未学习过编程的人怎么办?

1343
来自专栏机器学习算法与Python学习

资源 | 中文NLP资源库

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

2882
来自专栏人工智能快报

麻省理工开发出低功耗语音识别技术

自动语音识别技术在十多年之前还难登大雅之堂,但现在它正成为人们和主要计算设备之间进行交互的主要手段。 据麻省理工学院报道,该院的研究人员已成功开发出了自动语音识...

2945
来自专栏人工智能头条

七种基于云的机器学习服务

2754
来自专栏机器之心

演讲 | 亚马逊机器学习总监Alex Smola:为什么你的机器学习代码运行速度慢

机器之心原创 作者:高静宜 2017 年 3 月 27 日,亚马逊云服务(AWS)机器学习总监 Alex Smola 到北京大学招贤纳士,并呈现了一场题为《为什...

3709
来自专栏奇点大数据

入门深度学习应该学什么

最近被人问的最多的一个问题是“我想入门深度学习,我应该学些什么”。 老实说,这个问题不是那么好回答,毕竟每个人的知识背景和技能背景实在是太不一样了。如果要假设...

3907
来自专栏AI科技评论

盘点丨开发者必备:基于 Linux 生态的十大 AI 开源框架

前不久,AI 科技评论曾盘点了一系列机器学习相关的开源平台,包括谷歌的TensorFlow、微软的CNTK以及百度的PaddlePaddle等等。这些平台各具特...

3788
来自专栏量子位

OpenAI强化学习游戏库大更新:游戏上千款,还能自己加

想把一个强化学习Agent训练成游戏高手?OpenAI今天推出的完整版Gym Retro必须了解一下。

1395

扫码关注云+社区

领取腾讯云代金券