(选自Analytics Vidhya;作者:Pranav Dar;磐石编译)
目录
通常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。
然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新的理论方法往往就成了难题。
如果你也遇到了这样的问题,接下来我们会提供了一系列可用的公开数据集给大家。
在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以使用这些数据集来提高自己的能力。应用这些数据集将使您成为一名更好的数据科学家,并且您从中获得的东西将在您的职业生涯中具有无可估量的价值。我们还收录了具有当前最好结果(SOTA)的论文,供您浏览并改进您的模型。
如何使用这些数据集?
首先要做的事:这些数据集的规模很大!所以请确保你的网络够快,确保下载没有任何限制。
有很多种方式可以使用这些数据集。比如:你可以使用它们来锻炼你的各种深度学习方法技巧;你可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例和公布你的新发现!
数据集分为三类:图像处理相关数据集,自然语言处理相关数据集和语音处理相关数据集。
MNIST是最受欢迎的深度学习数据集之一。它是一个手写数字数据集,包含一个60,000个样本的训练集和一个10,000个样本的测试集。这是一个很不错的数据集,它可用于在实际数据中尝试学习技术和深度识别模式,并且它花费极少的时间和精力在数据预处理上。
大小:约50 MB
数量: 10个类别,70,000张图片
SOTA:Dynamic Routing Between Capsules
(https://arxiv.org/pdf/1710.09829.pdf)
2. MS-COCO
(https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&token=1276755825&lang=zh_CN#home)
大小:约25 GB(压缩包)
数量: 330K张图像,80个对象类别,每个图像5个描述,25万个人(已标记)
SOTA: Mask R-CNN
(https://arxiv.org/pdf/1703.06870.pdf)
3. ImageNet
(https://arxiv.org/pdf/1703.06870.pdf)
ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100,000个短语,ImageNet平均提供了约1000个图像来说明每个短语。
大小:约150GB
数量:图像总数约1,500,000; 每个都有多个边界框和相应的类标签。
SOTA: Aggregated Residual Transformations for Deep Neural Networks
(https://arxiv.org/pdf/1611.05431.pdf)
4. Open Images Dataset
(https://github.com/openimages/dataset)
Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别,且有图像层级的标注框进行注释。
大小: 500 GB(压缩包)
数量: 9,011,219张超过5k标签的图像
SOTA: Resnet 101 image classification model (trained on V2 data):Model checkpoint, Checkpoint readme, Inference code.
(https://storage.googleapis.com/openimages/2017_07/oidv2-resnet_v1_101.ckpt.tar.gz)
5. VisualQA (http://www.visualqa.org/)
VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点:
大小: 25 GB(压缩包)
数量: 265,016张图片,每张图片至少3个问题,每个问题10个基本事实
SOTA: Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge(https://arxiv.org/abs/1708.02711)
6. The Street View House Numbers (SVHN)
(http://ufldl.stanford.edu/housenumbers/)
这是一个为训练目标检测算法而“真实”存在的一个图像数据集--来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似,但SVHN包含更多的标记数据(超过600,000个图像)。
大小: 2.5 GB
数量: 10个类别,共6,30,420张图片
SOTA:Distributional Smoothing With Virtual Adversarial Training(https://arxiv.org/pdf/1507.00677.pdf)
7. CIFAR-10
(http://www.cs.toronto.edu/~kriz/cifar.html)
这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次(training batches)和1个测试批次(test batches)。每个批次(batch)有10,000个图像。
大小:170 MB
数量:10个类别,共60,000张图片
SOTA:ShakeDrop regularization(https://openreview.net/pdf?id=S1NHaMW0b)
8. Fashion-MNIST (https://github.com/zalandoresearch/fashion-mnist)
Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。
大小:30 MB
数量:10个类,70,000张图片
SOTA:Random Erasing Data Augmentation(https://arxiv.org/abs/1708.04896)
https://arxiv.org/abs/1705.09207
大小:80 MB(压缩包)
数量:160,000条推文
SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets http://www.aclweb.org/anthology/W17-5202
https://aclanthology.info/pdf/R/R11/R11-1097.pdf
大小:约15 GB
数量:约30,000,000个句子及其翻译
SOTA:Attention Is All You Need https://arxiv.org/abs/1706.03762
大小:10 MB
数量:1500条音频
SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures https://arxiv.org/pdf/1712.00866
大小:约1000 GB
数量:约100,000曲目(tracks)
SOTA:Learning to Recognize Musical Genre from Audio
https://arxiv.org/pdf/1803.05337.pdf
大小:14GB(压缩)
数量:约700个音频样本
SOTA: A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles https://pdfs.semanticscholar.org/0cc2/952bf70c84e0199fcf8e58a8680a7903521e.pdf
数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的特征。样本音频可以通过使用哥伦比亚大学提供的代码从7digital等服务器上获取。https://labrosa.ee.columbia.edu/millionsong/ http://www.7digital.com/
大小:280 GB
数量:一百万首歌曲哦!
SOTA: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge http://www.ke.tu-darmstadt.de/events/PL-12/papers/08-aiolli.pdf
该数据集是包含约1000小时英语音频的大型语料库。这些数据来自LibriVox项目的有声读物(audiobooks),且已经过分割、对齐处理。如果您恰好想入门这个领域,请查看已准备好的声学模型(已在kaldi-asr.org和语言模型上进行了训练且适合评估),网址为http://www.openslr.org/11/ http://www.kaldi-asr.org/downloads/build/6/trunk/egs/
大小:约60 GB
数量:1000小时音频
SOTA: Letter-Based Speech Recognition with Gated ConvNets https://arxiv.org/abs/1712.09444
VoxCeleb是一个大型的语音识别数据集。它由来自YouTube视频中的1,251名明星所讲的约10万句话组成。这些数据性别分布均衡(男性占55%),名人跨越不同的口音、职业和年龄,训练集和测试集之间没有重叠。通过这个数据集可以实现一个有趣的应用--区分和识别超级巨星
大小:150 MB
数量:1,251位名人的100,000条话语
SOTA:VoxCeleb: a large-scale speaker identification dataset https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
1.Twitter Sentiment Analysis https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/ 含有种族主义和性别歧视言论的推文的处理已成为twitter的难题,那么区分识别这些推文就成了twitter的重要任务。在这个实际问题中,我们提供正常推文与非正常推文两种Twitter数据。你的任务是正确区分这些推文。 大小:3 MB 数量:31,962条推文 2.Age Detection of Indian Actors https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/ 对于任何深度学习爱好者来说,这都是一个令人着迷的挑战。该数据集由数千个印度演员的图片组成,你的任务是确定他们的年龄。所有图像都是从视频帧中人工剪切的,这致使尺度,姿态,表情,亮度(illumination),年龄,分辨率,遮挡和妆容具有高度可变性。 大小:48 MB(压缩包) 数量:训练集19,906幅图像和测试集6636幅图像 SOTA:Hands on with Deep Learning – Solution for Age Detection Practice Problem https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/ 3. Urban Sound Classification https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/ 这个数据集包含超过8000个来自10个类别的城市声音片段。这个实际问题旨在向你介绍对常用分类场景的音频处理。 大小:训练集 - 3 GB(压缩),测试集 - 2 GB(压缩) 数量:10个类别,8732个城市声音片段(单个片段时长<= 4s,已标注)