资源 | 机器学习高质量数据集大合辑

大数据文摘出品

编译:蒋宝尚

在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。

那么用于机器学习的开放数据集有哪些呢?文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。

首先,在搜索数据集时,在卡内基·梅隆大学有以下说法:

  • 数据集不应混乱,因为你不希望花费大量时间清理数据。
  • 数据集不应该有太多行或列,因此很容易使用。
  • 数据越干净越好 —— 清洗大型数据集相当耗时。
  • 数据可以解答一些有趣的问题。

数据集查找器

Kaggle:Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注。

在这个平台中可以找到各种数据,从拉面的评分、篮球数据,到西雅图的宠物牌照应有尽有。

https://www.kaggle.com/

UCI机器学习库(UCI Machine Learning Repository):这是网络上最早的数据集来源之一,是寻找各种有趣数据集的第一选择。虽然用户提供的数据集的清洁度不太一样,但绝大多数都是干净的。我们可以从 UCI 机器学习库直接下载数据,无需注册。

http://mlr.cs.umass.edu/ml/

VisualData:在这里计算机视觉数据集按类别分组,并且支持搜索查询。

https://www.visualdata.io/

公共政府数据集

Data.gov:在这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但要注意的是,很多数据还有待进一步研究。

https://www.data.gov/

食品环境地图集(Food Environment Atlas):当地的食物选择如何影响美国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

学校系统财务状况(School system finances):这里有美国学校系统财务状况的调查。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

慢性病数据(Chronic disease data):美国各地慢性病指标的数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

美国国家教育统计中心(The US National Center for Education Statistics):来自美国和世界各地的教育机构和教育人口统计数据。

https://nces.ed.gov/

英国数据服务:英国最大的社会、经济和人口数据收集机构。

https://www.ukdataservice.ac.uk/

数据美国(Data USA):全面的、可视化的美国公共数据。

http://datausa.io/

金融和经济

Quandl: 里面有很多经济和金融数据,你可以使用这些数据建立预测经济指标或股价的模型。

https://www.quandl.com/

世界银行开放数据(World Bank Open Data):涵盖世界各地人口统计、大量经济和发展指标的数据集。

https://data.worldbank.org/

货币基金组织的数据(IMF Data):国际货币基金组织公布关于国际金融、债务率、外汇储备、商品价格和投资的数据。

https://www.imf.org/en/Data

英国金融时报金融时报市场数据(Financial Times Market Data:):里面有来自世界各地的最新金融市场信息,包括股票价格指数、商品和外汇。

https://markets.ft.com/data/

谷歌趋势(Google Trends):观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。

http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

美国经济协会(AEA):这这里你可以找到美国宏观经济的相关数据。

https://www.aeaweb.org/resources/data/us-macro-regional

机器学习数据集

Labelme:数据集中包含大量有标注的图像数据。

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet: 是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。

http://image-net.org/

LSUN:场景理解与许多辅助任务(房间布局估计,显着性预测等)

http://lsun.cs.princeton.edu/2016/

MS COCO:通用图像的理解和文字描述。

http://mscoco.org/

COIL 100:在 360 度旋转中以各个角度成像的 100 个不同的物体。

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

视觉基因组:非常详细的视觉知识库,配以0 万张带有文字描述的图像。

http://visualgenome.org/

谷歌的Open Images:“知识共享”(Creative Commons)下的900万个图像网址集合,已标注超过6,000个类别的标签。

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

Labelled Faces in the Wild:13,000个人脸标记图像,用于开发涉及面部识别的应用程序。

http://vis-www.cs.umass.edu/lfw/

Stanford Dogs Dataset:包含20580张图片和120个不同的狗品种类别。

http://vision.stanford.edu/aditya86/ImageNetDogs/

室内场景识别(Indoor Scene Recognition):这是一个非常细化的数据集,由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳,因而这个数据集非常有用。内有 67 个室内类别,共 15,620 张图像。

http://web.mit.edu/torralba/www/indoor.html

情感分析

多域情感分析数据集(Multidomain sentiment analysis dataset):一个比较有历史的数据集,里面还有一些来自亚马逊的产品评论。

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB: 影评,也是比较有历史的二元情绪分类数据集、数据规模相对较小,里面有 25,000 条电影评论。

http://ai.stanford.edu/~amaas/data/sentiment/

斯坦福情感树银行(Stanford Sentiment Treebank):带有情感注释的标准情绪数据集。

http://nlp.stanford.edu/sentiment/code.html

Sentiment140:一个流行的数据集,它使用16万条推文,并把表情等等符号剔除了。

http://help.sentiment140.com/for-students/

Twitter 美国航空公司情绪数据集 (Twitter US Airline Sentiment):自 2015 年 2 月以来美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

安然数据集:里面有安然集团高级管理层的电子邮件数据。

https://www.cs.cmu.edu/~./enron/

亚马逊评论:里面有3500万条来自亚马逊的评论,时间长度为18年。数据包括产品和用户信息、评级等。

https://snap.stanford.edu/data/web-Amazon.html

Google Books Ngram:来自Google书籍的词汇集合。

https://aws.amazon.com/datasets/google-books-ngrams/

博客语料库:从blogger.com收集的681,288篇博客文章。每个博客至少包含200个常用的英语单词。

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

维基百科链接数据(Wikipedia Links data):维基百科全文。该数据集包含来自400多万篇文章,近19亿字。你可以对字、短语或段落本身的一部分进行搜索。

https://code.google.com/p/wiki-links/downloads/list

Gutenberg电子图书列表:Project Gutenberg的附加注释的电子书列表。

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

加拿大议会的文本块(Hansards text chunks of Canadian Parliament):来自第36届加拿大议会记录的130万对文本。

http://www.isi.edu/natural-language/download/hansard/

危险边缘 (Jeopardy):来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档。

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

英文SMS垃圾邮件收集(SMS Spam Collection in English):包含5,574条英文垃圾邮件的数据集。

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

Yelp评论(Yelp Reviews):Yelp发布的一个开放数据集,包含超过500万次评论。

https://www.yelp.com/dataset

UCI的垃圾邮件库(UCI’s Spambase):一个大型垃圾邮件数据集,用于垃圾邮件过滤。

https://archive.ics.uci.edu/ml/datasets/Spambase

自动驾驶

Berkeley DeepDrive BDD100k:这是目前最大的自动驾驶 数据集。里面有超过 1,100 多个小时驾驶体验的视频,包含10 万个在一天中不同时段以及在不同天气条件下的数据。

http://bdd-data.berkeley.edu/

百度 Apolloscapes:大型数据集,定义了26种不同的语义项,如汽车,自行车,行人,建筑物,路灯等。

http://apolloscape.auto/

Comma.ai:超过7个小时的高速公路驾驶视频。里面的数据包括汽车的速度、加速度、转向角和GPS坐标。

https://archive.org/details/comma-dataset

城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。

https://www.cityscapes-dataset.com/

CSSAD数据集:包含自动车辆的感知和导航等数据,但着重于发达国家的道路。

http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

麻省理工学院AGE实验室(MIT AGE Lab:):在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。

http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA:智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。

http://cvrr.ucsd.edu/LISA/datasets.html

博世小型交通灯数据集(Bosch Small Traffic Light Dataset):用于深入学习的小交通灯数据集。

https://hci.iwr.uni-heidelberg.de/node/6132

Lara交通灯识别(LaRa Traffic Light Recognition):巴黎交通灯的数据集。

http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

WPI 数据集:交通灯、行人和车道检测的数据集。

http://computing.wpi.edu/dataset.html

相关报道:

https://medium.com/datadriveninvestor/the-50-best-public-datasets-for-machine-learning-d80e9f030279

【今日机器学习概念】

Have a Great Definition

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

《谁动了我的奶酪》中的粒子群算法

本文为作者郭飞原创,CDA数据分析师已获得授权 1、《谁动了我的奶酪》是讲啥的? 其实这本书是一碗上古的老鸡汤。 故事大概是这样的,有4个小生命,其中有两只老鼠...

2236
来自专栏AI2ML人工智能to机器学习

机器学习平台的优化器 (平台篇)

机器学习的开源平台越来越多了, 绝大部分平台都是牛人读博期间的产物 (所以大家一定要珍惜读博能做开发的日子)。 先说一下, 主流平台也分工业和研究, 大体这...

1140
来自专栏上善若水

054Android操作系统11种传感器介绍

Android操作系统11种传感器介绍 在Android2.3 gingerbread系统中,google提供了11种传感器供应用层使用。

1834
来自专栏新智元

人类奋起反击!OpenAI遭滑铁卢,Dota2顶级淘汰赛开场惨败!

51分钟的时间里,OpenAI Five虽然在控制速度和团队支援上远超人类,但金币数量只有一次稍稍领先,说明对英雄技能的释放以及兵线的理解还有待提高。

972
来自专栏磐创AI技术团队的专栏

资源 | 机器学习高质量数据集大合辑

在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。

924
来自专栏新智元

【一图读懂】你不得不知道的10个影响人类社会的算法

【新智元导读】本文的信息图表详细介绍了算法的定义、起源以及 10个重要而且基本的算法,并提出有关算法,尤其是人工智能和深度学习对人类社会、经济的影响的思考。 在...

4126
来自专栏新智元

Nature:科学家首次实现肉眼可见的量子纠缠

1676
来自专栏大数据文摘

机器学习菜鸟最常犯的5个错误,以及如何避免

1694
来自专栏新智元

华中科大骆清铭:开启“脑空间信息计划”,连接脑科学与类脑人工智能

【新智元导读】华中科技大学(苏州)脑空间信息技术研究院启动在即,旨在使工业级高分辨率脑图成为神经科学的标准工具。这一项目由华中科技大学生物医学成像研究者骆清铭领...

4367
来自专栏机器之心

更偏好白人男性?Science新研究证明人工智能也能学会偏见

选自Science 机器之心编译 参与:吴攀、晏奇 至少从口号上来说,我们一直在追求「人人平等」,但我们也都清楚我们离这一目标还相去甚远,部分原因是因为世界并不...

3658

扫码关注云+社区

领取腾讯云代金券