深度学习与机器学习中开源图片数据库汇总

数据的准备工作是训练模型前的必要工作,显然这也是非常耗时的,所以在入门阶段我们完全可以用现有的开源图片库快速完成前期的准备工作:

ImageNet

ImageNet是根据WordNet层次结构(目前只有名词)组织的图像数据库,其中层次结构的每个节点都由数百和数千个图像描绘。 目前,数据库中每个节点平均拥有超过五百幅图像。 我们希望ImageNet将成为研究人员,教育工作者,学生以及分享我们对图片热情的所有人的有用资源。

ImageNet的一些特点:

ImageNet是全球最大的开源图片库,截至到现在(2017.5)ImageNet共有一千四百多万张图片。其中包括超过20000个synset(s),synset是近义词的合集,synsnet可以理解为ImageNet整理的标签。

说到WordNet层次结构,就要提一下什么是WordNet,WordNet是普林斯顿大学开源的词汇库,可以理解为是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,WordNet由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。WordNet 主要有3个主概念 Synset, WordSense 和 Word。而ImageNet就是应用了synset这个概念,只是ImageNet目前只有名词。

由于图片的版权问题,ImageNet中的图片以URLs的形式提供下载,也就是说ImageNet只提供这个图片在哪,而不直接提供图片本身。

我们在ImageNet搜索一个synset的时,左侧可以看到他的层次结构WordNet,在Download中提供了URLs的下载地址。

CIFAR

CIFAR由Alex Krizhevsky, Vinod Nair和 Geoffrey Hinton收集并整理,在Visual Dictionary的80万张图片中选择了6万张,并把它们分为CIFAR-10 和CIFAR-100。

CIFAR-10数据集包含60000个32*32的彩色图像,共有10类。有50000个训练图像和10000个测试图像。数据集分为5个训练块和1个测试块,每个块有10000个图像。测试块包含从每类随机选择的1000个图像。训练块以随机的顺序包含这些图像,但一些训练块可能比其它类包含更多的图像。训练块每类包含5000个图像。

CIFAR-100数据集包含100小类,每小类包含600个图像,其中有500个训练图像和100个测试图像。100类被分组为20个大类。

MNIST

MNIST深度学习领域中大名鼎鼎的数据集—MNIST,几乎所有的深度学习教程的入门实例都是手写数字识别,而它们用到的库就是MNIST。这就好比我们学习一门语言的时候显示”hello world”。

MNIST数据集共包含7万个样本,分别是手写体数字0~9,样本大小为28*28。

Labeled Faces in the Wild

Labeled Faces in the Wild数据库中收集了1万3千多张人脸图像,共包含了5000多个人物。每个人标记除了人物的名字外,还包含了其他信息,比如性别,年龄等

Quick Draw

Quick Draw是由google发布的涂鸦数据集,其中包含 5000 万张图画的集合,分成了 345 个类别,它其实就是张这个样子:

这么看起来这个数据集还是挺无聊的,它的发布其实是源于谷歌推出的 AutoDraw ,这是一个能把你的随手涂鸦变成绘画的人工智能技术工具,就是这样(谷歌总是在做一些很好玩的东西):

谷歌也曾发布论文和博客介绍了其背后的技术。实际上,AutoDraw 所用的技术基于谷歌先前的涂鸦实验「Quick, Draw!」。近日,谷歌发布了该项目背后的数据集,就是之前提到的Quick Draw数据集了。这个项目同时发布到了git上,在git的地址中对数据集进行了详细的介绍,在这里简要描述下:

原始数据在 ndjson 文件中,并按类别进行了分割,按照如下格式:

该数据集在谷歌云存储服务中,在 ndjson 文件中分类存储。请参阅 Cloud Console 中的文件列表,数据集分类如下:

Raw files (.ndjson) Simplified drawings files (.ndjson) Binary files (.bin) Numpy bitmap files (.npy)

其中原始文件和简笔画都是.ndjson形式存储,同时提供了二进制文件(.bin)和Numpy 位图(.npy)文件。

Binary files (.bin) 我们也提供了简化后的绘画和元数据的定制二进制格式,可用于高效的压缩和加载。examples/binary_file_parser.py 给出了如何用 Python 加载该文件的示例。

Numpy 位图(.npy) 所有简化过的绘画也都被转换成了 28×28 的灰度位图,保存为 numpy 的 .npy 格式。该文件可以通过 np.load() 函数加载。

AI-Challneger

AI-Challneger是一个由创新工场发起的大赛,其中有6个项目,每一个项目下都提供了配套的数据集,比如场景分类项目下,到目前为止提供了三个数据集,分别是训练集(train),验证集(valuation)和测试集A(test_a),分别包含图片5w+,7k+,7k+;包含80类场景图,支持直接下载原图。

kaggle cats vs. dogs

猫狗大战数据集,大名鼎鼎的kaggle大赛下的数据,一个二分类数据集,训练集中猫狗图片各12500张,测试集中猫狗图片共12500张,支持原图下载。

持续更新中……

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

关于numpy mean函数的axis参数

理解多维矩阵的"求和"、"平均"操作确实太恶心了,numpy提供的函数里还有一堆参数,搞得晕头转向的,这里做个笔记,提醒一下自己, 下面是例程 import n...

3417
来自专栏机器之心

斯坦福提出机器学习开发新思路:无Bug的随机计算图Certigrad(已开源)

选自Github 机器之心编译 参与:李泽南、蒋思源 在实践中,机器学习算法经常会出现各种错误,而造成错误的原因也经常难以找到。近日,斯坦福大学的研究者提出了...

2617
来自专栏腾讯Bugly的专栏

深度学习三大框架对比

人工智能的浪潮正席卷全球,诸多词汇时刻萦绕在我们的耳边,如人工智能,机器学习,深度学习等。

1K11
来自专栏编程

用Python进行速度预测

这次分享一段数据特征挖掘准备工作的套路~ 数据格式是这样的: ? task 预测值:速度 特征值: Region 区域 Length 长度Volume 流...

2429
来自专栏机器之心

让AI自行编写程序:神经程序合成近期研究进展综述

2596
来自专栏数据科学与人工智能

【开源工具】国外程序员整理的机器学习资源大全

本列表选编了一些机器学习领域牛B的框架、库以及软件(按编程语言排序)。 C++ 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 ...

3139
来自专栏机器之心

教程 | 用深度学习DIY自动化监控系统

监控是安保和巡查一个不可或缺的组成部分。在大多数情况下,这项工作需要长时间去查找一些你不期望发生的事。我们做的这件事很重要,但也是一项非常乏味的任务。

911
来自专栏技术随笔

[译] Introduction to debugging neural networks

3406
来自专栏大数据挖掘DT机器学习

【案例】SPSS商业应用系列第2篇: 线性回归模型

商业保险公司希望通过分析以往的固定资产保险理赔案例,能够预测理赔金额,借以提高其服务中心处理保险理赔业务的速度和服务质量,并降低公司运营风险。业界领先...

3697
来自专栏阿尔法go

爬虫系列(1)-----python爬取猫眼电影top100榜

对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例...

4348

扫码关注云+社区