深度学习与机器学习中开源图片数据库汇总

数据的准备工作是训练模型前的必要工作,显然这也是非常耗时的,所以在入门阶段我们完全可以用现有的开源图片库快速完成前期的准备工作:

ImageNet

ImageNet是根据WordNet层次结构(目前只有名词)组织的图像数据库,其中层次结构的每个节点都由数百和数千个图像描绘。 目前,数据库中每个节点平均拥有超过五百幅图像。 我们希望ImageNet将成为研究人员,教育工作者,学生以及分享我们对图片热情的所有人的有用资源。

ImageNet的一些特点:

ImageNet是全球最大的开源图片库,截至到现在(2017.5)ImageNet共有一千四百多万张图片。其中包括超过20000个synset(s),synset是近义词的合集,synsnet可以理解为ImageNet整理的标签。

说到WordNet层次结构,就要提一下什么是WordNet,WordNet是普林斯顿大学开源的词汇库,可以理解为是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,WordNet由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。WordNet 主要有3个主概念 Synset, WordSense 和 Word。而ImageNet就是应用了synset这个概念,只是ImageNet目前只有名词。

由于图片的版权问题,ImageNet中的图片以URLs的形式提供下载,也就是说ImageNet只提供这个图片在哪,而不直接提供图片本身。

我们在ImageNet搜索一个synset的时,左侧可以看到他的层次结构WordNet,在Download中提供了URLs的下载地址。

CIFAR

CIFAR由Alex Krizhevsky, Vinod Nair和 Geoffrey Hinton收集并整理,在Visual Dictionary的80万张图片中选择了6万张,并把它们分为CIFAR-10 和CIFAR-100。

CIFAR-10数据集包含60000个32*32的彩色图像,共有10类。有50000个训练图像和10000个测试图像。数据集分为5个训练块和1个测试块,每个块有10000个图像。测试块包含从每类随机选择的1000个图像。训练块以随机的顺序包含这些图像,但一些训练块可能比其它类包含更多的图像。训练块每类包含5000个图像。

CIFAR-100数据集包含100小类,每小类包含600个图像,其中有500个训练图像和100个测试图像。100类被分组为20个大类。

MNIST

MNIST深度学习领域中大名鼎鼎的数据集—MNIST,几乎所有的深度学习教程的入门实例都是手写数字识别,而它们用到的库就是MNIST。这就好比我们学习一门语言的时候显示”hello world”。

MNIST数据集共包含7万个样本,分别是手写体数字0~9,样本大小为28*28。

Labeled Faces in the Wild

Labeled Faces in the Wild数据库中收集了1万3千多张人脸图像,共包含了5000多个人物。每个人标记除了人物的名字外,还包含了其他信息,比如性别,年龄等

Quick Draw

Quick Draw是由google发布的涂鸦数据集,其中包含 5000 万张图画的集合,分成了 345 个类别,它其实就是张这个样子:

这么看起来这个数据集还是挺无聊的,它的发布其实是源于谷歌推出的 AutoDraw ,这是一个能把你的随手涂鸦变成绘画的人工智能技术工具,就是这样(谷歌总是在做一些很好玩的东西):

谷歌也曾发布论文和博客介绍了其背后的技术。实际上,AutoDraw 所用的技术基于谷歌先前的涂鸦实验「Quick, Draw!」。近日,谷歌发布了该项目背后的数据集,就是之前提到的Quick Draw数据集了。这个项目同时发布到了git上,在git的地址中对数据集进行了详细的介绍,在这里简要描述下:

原始数据在 ndjson 文件中,并按类别进行了分割,按照如下格式:

该数据集在谷歌云存储服务中,在 ndjson 文件中分类存储。请参阅 Cloud Console 中的文件列表,数据集分类如下:

Raw files (.ndjson) Simplified drawings files (.ndjson) Binary files (.bin) Numpy bitmap files (.npy)

其中原始文件和简笔画都是.ndjson形式存储,同时提供了二进制文件(.bin)和Numpy 位图(.npy)文件。

Binary files (.bin) 我们也提供了简化后的绘画和元数据的定制二进制格式,可用于高效的压缩和加载。examples/binary_file_parser.py 给出了如何用 Python 加载该文件的示例。

Numpy 位图(.npy) 所有简化过的绘画也都被转换成了 28×28 的灰度位图,保存为 numpy 的 .npy 格式。该文件可以通过 np.load() 函数加载。

AI-Challneger

AI-Challneger是一个由创新工场发起的大赛,其中有6个项目,每一个项目下都提供了配套的数据集,比如场景分类项目下,到目前为止提供了三个数据集,分别是训练集(train),验证集(valuation)和测试集A(test_a),分别包含图片5w+,7k+,7k+;包含80类场景图,支持直接下载原图。

kaggle cats vs. dogs

猫狗大战数据集,大名鼎鼎的kaggle大赛下的数据,一个二分类数据集,训练集中猫狗图片各12500张,测试集中猫狗图片共12500张,支持原图下载。

持续更新中……

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

那个爆火的“梦中修炼”AI,你也能用Keras搭一个了

上月,量子位报道了Google Brain的David Ha和“LSTM之父”Jürgen Schmidhuber的论文World Models。论文中习得周星...

953
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/7/1

Building the Software 2.0 Stack by Andrej Karpathy from Tesla

1094
来自专栏大数据挖掘DT机器学习

天池大赛—商场中精确定位用户所在店铺 作品分享

题目回顾 题目地址: 题目要求给定一条用户的消费记录,求该用户当前所在的店铺。 下面介绍题目数据和评测方式 1. 店铺和商场信息表(mall) ? 2. 用户...

4046
来自专栏MixLab科技+设计实验室

TensorFlow.js、迁移学习与AI产品创新之道

TensorFlow 的 JS 版本终于出啦,deeplearn.js 正式收编至 TensorFlow 项目,并改名为 TensorFlow.js : 采用 ...

4024
来自专栏Python中文社区

Kaggle机器学习实战总结

專 欄 ❈王勇,Python中文社区专栏作者,目前感兴趣项目商业分析、Python、机器学习、Kaggle。17年项目管理,通信业干了11年项目经理管合同交付...

2118
来自专栏MixLab科技+设计实验室

TensorFlow.js、迁移学习与AI产品创新之道

TensorFlow 的 JS 版本终于出啦,deeplearn.js 正式收编至 TensorFlow 项目,并改名为 TensorFlow.js :

7069
来自专栏机器之心

资源 | 深度学习自动前端开发:从草图到HTML只需5秒(附代码)

选自InsightDataScience 作者:Ashwin Kumar 机器之心编译 参与:乾树、李泽南 在人们的不断探索下,「使用人工智能自动生成网页」的方...

4159
来自专栏量子位

和免疫荧光标记说拜拜 | 谷歌Cell论文:深度学习模型预测荧光位置

常用的相差显微镜观察法,是从生物组织的一侧给光,对细胞损伤小,且材料准备过程非常简单。

1023
来自专栏Python中文社区

Python自然语言处理分析倚天屠龙记

最近在了解到,在机器学习中,自然语言处理是较大的一个分支。存在许多挑战。例如: 如何分词,识别实体关系,实体间关系,关系网络展示等。

1315
来自专栏星流全栈

使用深度学习来读唇语,压缩JPEG,保护住宅等

952

扫码关注云+社区