CNN中各层图像大小的计算

CNN刚刚入门,一直不是很明白通过卷积或者pooling之后图像的大小是多少,看了几天之后终于搞清楚了,在这里就结合keras来说说各层图像大小是怎么计算的,给刚入门的一点启发吧!

keras中的convolution和pooling

keras我们以0.2的版本来介绍,0.1对的版本有不一样的地方。0.1的版本的border_mode可以有三种:valid,same,full,0.2版本中的只有两种少了full。

0.2版本的卷积需要指明input_shape但是不需要指明feature map的数量,0.1不需要指明input_shape但是需要指明feature map的数量。 下面具体说说几个重要参数的具体意思:

CONVOLUTION

keras.layers.convolutional.Convolution2D(nb_filter, nb_row, nb_col, init='glorot_uniform', activation='linear', weights=None, border_mode='valid', subsample=(1, 1), dim_ordering='th', W_regularizer=None, b_regularizer=None, activity_regularizer=None, W_constraint=None, b_constraint=None)

nb_filter:filter的个数 nb_row,nb_col:filter的大小(行和列) init:初始化方法 activation:激活函数 border_mode:valid 或者same,这个对下一层的运算产生影响 W_regulizer: WeightRegularizer,调整主权值矩阵的,通常使用L2 regulizer

POOLING 最常用的就是maxpooling,比如pool_size=(2, 2)就是说2*2=4个像素取值大的那个作为pooling之后的值,看下图:

keras.layers.convolutional.MaxPooling2D(pool_size=(2, 2), strides=None, border_mode='valid', dim_ordering='th')

pool_size:pooling的大小 stride:pooling的stride大小 border_mode: ‘valid’ or ‘same’ Note: ‘same’ will only work with TensorFlow for the time being dim_ordering: ‘th’ or ‘tf’. In ‘th’ mode, the channels dimension (the depth) is at index 1, in ‘tf’ mode is it at index 3

代码实例

weight_decay = 0.0001

# 使用sequentia模型
chars_model = Sequential()

# 第一层卷积,filter大小4*4,数量32个,原始图像大小36*20
chars_model.add(Convolution2D(32, 4, 4, input_shape=(1, 36, 20), border_mode='valid', activation='relu', W_regularizer=l2(weight_decay)))

# 第二层卷积,filter大小4*4,数量32个,图像大小(36-4+1)*(20-4-1)
chars_model.add(Convolution2D(32, 4, 4, input_shape=(1, 33, 17), border_mode='valid', activation='relu', W_regularizer=l2(weight_decay)))

# maxpooling,大小(2,2),输入大小是30*14,stride默认是None,输出大小是15*7
chars_model.add(MaxPooling2D(pool_size=(2, 2)))

# dropout防止过拟合
chars_model.add(Dropout(0.3))


# 第三层卷积,filter大小4*4,数量64个,图像大小15*7
chars_model.add(Convolution2D(64, 4, 4, input_shape=(1, 15, 7), border_mode='valid', activation='relu', W_regularizer=l2(weight_decay)))

# 第四层卷积,filter大小4*4,数量64个,图像大小12*4,输出是10*2
chars_model.add(Convolution2D(64, 3, 3, input_shape=(1, 12, 4), border_mode='valid', activation='relu', W_regularizer=l2(weight_decay)))

# maxpooling,大小(2,2),输入大小是12*4,stride默认是None,输出大小是5*1
chars_model.add(MaxPooling2D(pool_size=(2, 2)))

# dropout防止过拟合
chars_model.add(Dropout(0.3))


# flatten
chars_model.add(Flatten())

# 全连接,输入是上层的64个feature map,大小是5*1,输出有512个
chars_model.add(Dense(input_dim=64 * 5 * 1, output_dim=512, activation='relu'))
chars_model.add(Dropout(0.6))


# 全连接,输入是上层的输出512,softmax回归分类,总共26个类别
chars_model.add(Dense(input_dim=512, output_dim=26, activation='softmax'))

# 随机梯度下降的参数,使用momentum+decay
sgd = SGD(l2=0.0, lr=0.0001, decay=1e-6, momentum=0.9, nesterov=True)

# 损失函数定义为对数损失(categorical_crossentropy)
chars_model.compile(loss='categorical_crossentropy', optimizer=sgd, class_mode="categorical")

# monitor定义为val_loss,输出相应的信息,只保存最好的val_loss(val_loss最小的那个),save_best_only
check_pointer = ModelCheckpoint(save_chars_model_path, monitor='val_loss', verbose=1, save_best_only=True)

# batch为128,epoch为4000个,validation_split=0.1
chars_model.fit(data_train, label_train, batch_size=128, nb_epoch=4000, verbose=1, show_accuracy=True, validation_split=0.1, callbacks=[check_pointer])

# 使用训练好的模型来评价test集合
score = chars_model.evaluate(data_test, label_test, show_accuracy=True, verbose=0)

注释已经写的很清楚了,想必结合keras应该可以很容易看懂,就不多说了,如果有问题欢迎提出!

mnist网络的图解

结合下经典的mnist网络,说下各层算完之后的大小

我们可以看到: 输入:32*32 conv1:6个5*5的filter,输出6*28*28 pool1:2*2,输出6*14*14 conv2:16个5*5的filter,输出16*6*10*10 pool2:2*2,输出16*6*5*5 fc1:输入16×5*5,输出120 fc2:输入120,输出84 output:输入84,输出10类

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学学习手札

(数据科学学习手札16)K-modes聚类法的简介&Python与R的实现

我们之前经常提起的K-means算法虽然比较经典,但其有不少的局限,为了改变K-means对异常值的敏感情况,我们介绍了K-medoids算法,而为了解决K-m...

3198
来自专栏企鹅号快讯

用keras搭建3D卷积神经网络

资源: 3D卷积神经网络相关博客:http://blog.csdn.net/lengxiaomo123/article/details/68926778 ker...

4827
来自专栏AI研习社

用Kaggle经典案例教你用CNN做图像分类!

前言 在上一篇专栏《利用卷积自编码器对图片进行降噪》中,我们利用卷积自编码器对 MNIST 数据进行了实验,这周我们来看一个 Kaggle 上比较经典的一...

3576
来自专栏机器学习、深度学习

语义分割--End-to-End Instance Segmentation with Recurrent Attention

End-to-End Instance Segmentation with Recurrent Attention CVPR2017 https://g...

2618
来自专栏超智能体

超智能体S01:什么是机器学习

1635
来自专栏红色石头的机器学习之路

台湾大学林轩田机器学习基石课程学习笔记11 -- Linear Models for Classification

上一节课,我们介绍了Logistic Regression问题,建立cross-entropy error,并提出使用梯度下降算法gradient descnt...

2100
来自专栏小小挖掘机

对抗思想与强化学习的碰撞-SeqGAN模型原理和代码解析

1、背景 GAN作为生成模型的一种新型训练方法,通过discriminative model来指导generative model的训练,并在真实数据中取得了很...

7168
来自专栏用户2442861的专栏

实例说明图像的灰度化和二值化的区别

灰度化:在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值...

841
来自专栏机器学习算法与Python学习

TensorFlow实战:CNN构建MNIST识别(Python完整源码)

在文章(TensorFlow实战:SoftMax手写体MNIST识别(Python完整源码))中,我们MNIST手写体识别数据集,使用TensorFlow构建了...

1.1K9
来自专栏yl 成长笔记

kera 学习-线性回归

园子里头看到了一些最基础的 keras 入门指导, 用一层网络,可以训练一个简单的线性回归模型。

904

扫码关注云+社区