数据科学家必用的25个深度学习的开放数据集!

原文:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/?spm=a2c4e.11153959.blogcont576274.69.16b330274pLaMG

源:全球人工智能

在本文中,我们列出了一些高质量的数据集,每个深度学习爱好者都可以使用并改善改进他们模型的性能。 拥有这些数据集将使你成为一名更好的数据科学家,并且你将从中获得无可估量的价值。我们还收录了具有最新技术(SOTA)结果的论文,供你浏览并改进你的模型。

如何使用这些数据集?首先要做的事——下载这些数据集,这些数据集的规模很大!所以请确保你有一个快速的互联网连接。

数据集分为三类——图像处理、自然语言处理和音频/语音处理。

一、图像数据集

1.MNIST

https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

MNIST是最受欢迎的深度学习数据集之一,这是一个手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。这是一个很好的数据库,用于在实际数据中尝试学习技术和深度识别模式,同时可以在数据预处理中花费最少的时间和精力。

  • 大小: 50 MB
  • 记录数量: 70,000张图片被分成了10个组。
  • SOTA: Capsules之间的动态路由
  • https://arxiv.org/pdf/1710.09829.pdf

2.MS-COCO

http://cocodataset.org/#home

COCO是一个大型的、丰富的物体检测,分割和字幕数据集。它有几个特点:

  • 对象分割;
  • 在上下文中可识别;
  • 超像素分割;
  • 330K图像(> 200K标记);
  • 150万个对象实例;
  • 80个对象类别;
  • 91个类别;
  • 每张图片5个字幕;
  • 有关键点的250,000人;
  • 大小:25 GB(压缩)
  • 记录数量: 330K图像、80个对象类别、每幅图像有5个标签、25万个关键点。
  • SOTA:Mask R-CNN:https://arxiv.org/pdf/1703.06870.pdf

3.ImageNet

http://www.image-net.org/

ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个单词,ImageNet平均提供了大约1000个图像来说明每个单词。

  • 大小:150GB
  • 记录数量:总图像是大约是1,500,000,每个都有多个边界框和相应的类标签。
  • SOTA:深度神经网络的聚合残差变换。
  • https://arxiv.org/pdf/1611.05431.pdf

4.Open Images数据集

https://github.com/openimages/dataset

该数据集是一个包含近900万个图像URL的数据集,这些图像跨越了数千个类的图像级标签边框并且进行了注释。该数据集包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。

  • 大小:500 GB(压缩)
  • 记录数量:9,011,219张超过5k标签的图像
  • SOTA:Resnet 101图像分类模型(在V2数据上训练):模型检查点,检查点自述文件,推理代码。

5.VisualQA

http://www.visualqa.org/

VQA是一个包含相关图像的开放式问题的数据集,这些问题需要理解视野和语言。这个数据集的一些有趣的特点是:

  • 265,016张图片(COCO和抽象场景);
  • 每张图片至少有3个问题(平均5.4个问题);
  • 每个问题有10个基本事实答案;
  • 每个问题有3个似乎合理(但可能不正确)的答案;
  • 自动评估指标。
  • 大小:25 GB(压缩)
  • 记录数量:265,016张图片,每张图片至少3个问题,每个问题10个基本事实答案。
  • SOTA:视觉问答的技巧和诀窍:从2017年的挑战中学习

6.街景房屋号码(SVHN

http://ufldl.stanford.edu/housenumbers/

这是用于开发对象检测算法的真实世界的图像数据集,它需要最少的数据预处理。它与本列表中提到的MNIST数据集类似,但具有更多标签数据(超过600,000个图像),这些数据是从谷歌街景中查看的房屋号码中收集的。

  • 大小:2.5 GB
  • 记录数量:6,30,420张图片被分布在10个类中。
  • SOTA:虚拟对抗训练的分布平滑

7.CIFAR-10

http://www.cs.toronto.edu/~kriz/cifar.html

该数据集是图像分类的另一个数据集,它由10个类的60,000个图像组成(每个类在上面的图像中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分:5个训练批次和1个测试批次,每批有10,000个图像。

  • 大小:170 MB
  • 记录数量:60,000张图片被分为10个类。
  • SOTA:ShakeDrop正则化

8.Fashion--MNIST

https://github.com/zalandoresearch/fashion-mnist

Fashion-MNIST包含60,000个训练图像和10,000个测试图像,它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。

  • 大小:30 MB。
  • 记录数量:70,000张图片被分为10个类。
  • SOTA:随机擦除数据增强

二、自然语言处理

9.IMDB评论

http://ai.stanford.edu/~amaas/data/sentiment/

这是电影爱好者的梦幻数据集,它意味着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外,还有更多未标记的数据供你使用。原始文本和预处理的单词格式包也包括在内。

  • 大小:80 MB。
  • 记录数量: 25,000个电影评论训练,25,000个测试
  • SOTA:学习结构化文本表示

10.二十个新闻组(Twenty Newsgroups)https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

顾名思义,该数据集包含有关新闻组的信息。为了管理这个数据集,从20个不同的新闻组中获取了1000篇Usenet文章。这些文章具有典型特征,如主题行,签名和引号。

  • 大小:20 MB
  • 记录数量:来自20个新闻组的20,000条消息。
  • SOTA:用于文本分类的非常深的卷积网络,

11.Sentiment140

http://help.sentiment140.com/for-students/

Sentiment140是一个可用于情感分析的数据集。它是一个流行的数据集,它能让你的NLP旅程更加完美。情绪已经从数据中预先删除,最终的数据集具有以下6个特征:

  • 推文的极性(polarity of the tweet)。
  • 推文的ID。
  • 推文的日期。
  • 查询。
  • 推文的文本。
  • 大小:80 MB(压缩)。
  • 记录数量:160,000条推文。
  • SOTA:评估最先进的情感数据集的最新情绪模型

12.WordNet

https://wordnet.princeton.edu/

在上面的ImageNet数据集中提到,WordNet是一个包含英文synsets的大型数据库。Synsets是同义词组,每个描述不同的概念。WordNet的结构使其成为NLP非常有用的工具。

  • 大小:10 MB
  • 记录数量:通过少量“概念关系”将117,000个同义词集与其他同义词集相关联。
  • SOTA:Wordnet:现状和前景

13.Yelp评论

https://www.yelp.com/dataset

这是Yelp为了学习目的而发布的一个开放数据集。它由数百万用户评论,商业属性和来自多个大都市地区的超过20万张照片组成。这是一个非常常用的全球NLP挑战数据集。

  • 大小:2.66 GB JSON,2.9 GB SQL和7.5 GB照片(全部压缩)
  • 记录数:5,200,000条评论,174,000条商业属性,20万张照片。
  • SOTA:细心卷积(Attentive Convolution)

14.维基百科语料库

http://nlp.cs.nyu.edu/wikipedia-data/

该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿字。这个强大的NLP数据集你可以通过单词,短语或段落本身的一部分进行搜索。

  • 大小:20 MB。
  • 记录数:4,400,000篇文章,19亿字。
  • SOTA:打破Softmax Bottelneck:高级RNN语言模型

15.博客作者身份语料库

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

此数据集包含从数千名博主收集的博客帖子,并且已从blogger.com收集。每个博客都作为一个单独的文件提供,每个博客至少包含200次常用英语单词。

  • 大小:300 MB
  • 记录数:681,288个帖子,超过1.4亿字。
  • SOTA:用于大规模作者归属的字符级和多通道卷积神经网络

16.欧洲语言的机器翻译数据集

http://statmt.org/wmt18/index.html

该数据集包含四种欧洲语言的训练数据,它存在的任务是改进当前的翻译方法。你训练以下任何语言对:

  • 法语——英语;
  • 西班牙语——英语;
  • 德语——英语;
  • 捷克语——英语。
  • 大小:15 GB
  • 记录数量:约30,000,000个句子及其翻译。
  • SOTA:Attention就是你所需要的

三、音频/语音数据集

17.免费口语数字数据集

https://github.com/Jakobovski/free-spoken-digit-dataset

此列表中的另一项是由MNIST数据集启发!这是为了解决识别音频样本中的口头数字的任务而创建的。这是一个开放的数据集,所以希望随着人们继续贡献更多样本,它会不断增长。目前,它包含以下特点:

  • 3个扬声器;
  • 1500个录音(每个扬声器每个数字50个);
  • 英语发音;
  • 大小:10 MB。
  • 记录数量:1500个音频样本。
  • SOTA:使用采样级CNN架构的基于原始波形的音频分类

18.免费音乐档案(FMA)

https://github.com/mdeff/fma

FMA是音乐分析的数据集,该数据集由full-length和HQ音频、预先计算的特征以及音轨和用户级元数据组成。它是一个开放数据集,用于评估MIR中的几个任务。以下是数据集连同其包含的csv文件列表:

  • tracks.csv:106,574首曲目的每首曲目元数据,如ID,标题,艺术家,流派,标签和播放次数。
  • genres.csv:163种风格的ID与他们的名字和父母(用于推断流派层次和顶级流派)。
  • features.csv:用librosa提取的共同特征 。
  • echonest.csv:由Echonest (现在的 Spotify)为13,129首音轨的子集提供的音频功能 。
  • 大小:1000 GB
  • 记录数量:约100,000 tracks
  • SOTA:学习从音频中识别音乐风格

19.舞厅(Ballroom):http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html

该数据集包含舞厅跳舞音频文件,以真实音频格式提供了许多舞蹈风格的一些特征摘录。 以下是数据集的一些特征:

  • 实例总数:698;
  • 持续时间:约30秒;
  • 总持续时间:约20940秒;
  • 大小: 14GB(压缩)
  • 记录数量:约700个音频样本
  • SOTA:考虑到不同类型音乐风格的多模型方法来打败追踪

20.百万歌曲数据集

https://labrosa.ee.columbia.edu/millionsong/

在百万歌曲数据集是音频功能和元数据的一百万当代流行音乐曲目可自由可用的集合。 其目的是:

  • 鼓励对扩大到商业规模的算法进行研究;
  • 为评估研究提供参考数据集;
  • 作为使用API创建大型数据集的捷径(例如Echo Nest的);
  • 帮助新研究人员在MIR领域开始工作;
  • 数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的功能。示例音频可以通过使用哥伦比亚大学提供的代码从7digital等服务中获取。
  • 大小: 280 GB
  • 记录数量:一百万首歌曲!
  • SOTA:百万歌曲数据集挑战推荐系统的初步研究

21.LibriSpeech

http://www.openslr.org/12/

该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估,网址为:http://www.openslr.org/11/。

  • 大小:60 GB
  • 记录数: 1000小时的演讲。
  • SOTA:基于信件的语音识别与门控通信

22.VoxCeleb

http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

VoxCeleb是一个大型的说话人识别数据集。它包含约1,200名来自YouTube视频的约10万个话语,数据大部分是性别平衡的(男性占55%)。名人跨越不同的口音,职业和年龄,开发和测试集之间没有重叠。对于隔离和识别哪个超级巨星来说,这是一个有趣的用例。

  • 大小: 150 MB
  • 记录数: 1,251位名人的100,000条话语。
  • SOTA:VoxCeleb:一个大型说话人识别数据集

四、数据集的问题实践

23.Twitter情绪分析

https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

仇恨以种族主义和性别歧视为形式的言论已成为麻烦,重要的是将这类推文与其他人分开。在这个实践问题中,我们提供既有正常又有仇恨推文的Twitter数据。你作为数据科学家的任务是确定推文是仇恨推文,哪些不是。

  • 大小: 3 MB。
  • 记录数量: 31,962条推文。

24.印度演员的年龄检测

https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

对于任何深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像,你的任务是确定他们的年龄。所有图像都是手动选择的,并从视频帧中剪切,导致尺度,姿势,表情,照度,年龄,分辨率,遮挡和化妆的高度可变性。

  • 大小: 48 MB(压缩)。
  • 记录数:训练集中的19,906幅图像和测试集中的6636幅图像。
  • SOTA:深入学习 - 解决年龄检测问题

25.城市声音分类

https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

这个数据集包含超过8000个来自10个不同城市声音摘录。这个实践问题旨在向你介绍常见分类方案中的音频处理。

  • 大小:训练集 - 3 GB(压缩),测试集 - 2 GB(压缩)
  • 记录数: 来自10个城市的8732个声音标注的声音片段(<= 4s)

以上就是我们今天介绍的25个深度学习的开放数据集,如果你觉得有用,请及时转发给你身边的人!

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2018-04-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

业界 | 让智能体合作,谷歌团队提出自然语言的产生方法

AI科技评论按:受到万众瞩目的ICLR已经于今天在法国土伦召开。该大会由Yann LeCun 、 Yoshua Bengio 等几位行业顶级专家于2013年发起...

2885
来自专栏数据派THU

收藏 | 最新知识图谱论文清单(附解读、下载)

精选 6 篇来自 EMNLP 2018、COLING 2018、ISWC 2018 和 IJCAI 2018 的知识图谱相关工作,带你快速了解知识图谱领域最新研...

2213
来自专栏新智元

【1996~2016】盘点 20 年 AAAI 人工智能最佳论文

【新智元导读】新智元汇集计算机科学领域1996年到2016年人工智能领域最佳论文,附上题目及摘要的中文翻译,并对这些作品进行系统考察,从中可以看出人工智能这门学...

4509
来自专栏机器之心

教程 | 深度Q学习:一步步实现能玩《毁灭战士》的智能体

选自Medium 作者:Thomas Simonini 机器之心编译 参与:Panda 近年来,深度强化学习已经取得了有目共睹的成功。机器之心也曾发布过很多介绍...

2945
来自专栏CreateAMind

结构知识的泛化-从海马体学习的模型

3706
来自专栏腾讯高校合作

盘点2016-2017 EDA及芯片领域的神经网络热点论文

我们结合2017年的 FPGA 和 ISSCC 会议上的代表性工作,给出了神经网络的一些新热点和研究趋势。

42515
来自专栏PPV课数据科学社区

写给大家看的机器学习书(第三篇)

题记 —— 我们为何出发 在开始这个系列文章的第三篇之前,为了对初次见面的朋友更友好,将这个题记放在前面。 哪怕所有的初心最终都被遗忘,至少现在的我们足够认真。...

3056
来自专栏AI研习社

视频 | 10行代码,用大脑重量预测体重!硅谷AI网红亲身示范

Siraj Raval 作为深度学习领域的自媒体人在欧美可以说是无人不知、无人不晓。 凭借在 Youtube 上的指导视频,Siraj Raval 在全世界吸...

4476
来自专栏专知

一文看全ACL 2018亮点:表示学习和更具挑战性环境下的模型评价

【导读】第56届ACL大会于2018年7月15日至20日在澳大利亚墨尔本举行,Sebastian Ruder参加了会议并发表了三篇论文,并分享了他的参会感想,点...

1840
来自专栏新智元

【干货】如何评价谷歌深度学习速成课程

1753

扫码关注云+社区

领取腾讯云代金券