经典CNN模型整理（一）卷积回顾及 Lenet，Alexnet

文章来源：企鹅号 - AIfitness

温故知新，回顾一下卷积的历史，更好的阅读目标检测、字符识别等论文。

一、先简单回顾一下CNN：

A、局部感受野：在图像中的空间联系也是类似，局部范围内的像素之间联系较为紧密，而距离较远的像素则相关性较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。这种模式就是卷积神经网络中降低参数数目的重要神器：局部感受野。

B、卷积操作与权值共享

要训练的参数就是卷积核的大小。

C、池化：

池化就是将输入图像进行缩小，减少像素信息，只保留重要信息。包括最大值（max-pooling）、平均值（mean-pooling）池化。

D、Relu 激活

常用的激活函数有sigmoid、tanh、relu等等，前两者sigmoid/tanh比较常见于全连接层，后者ReLU常见于卷积层。激活函数的作用是用来加入非线性因素，把卷积层输出结果做非线性映射。

E、深层组合

将卷积层、Relu和池化层组合起来。

F、全连接层

全连接层在整个卷积神经网络中起到“分类器”的作用，即通过卷积、激活函数、池化等深度网络后，再经过全连接层对结果进行识别分类。首先将经过卷积、激活函数、池化的深度网络后的结果串起来。

卷积神经网络：将以上所有结果串起来后，就形成了一个“卷积神经网络”（CNN）结构。

二、经典网络结构

A、LeNet5（1986）

由两个卷积层，两个池化层，以及两个全连接层组成。卷积都是5*5的模板，stride=1，池化都是MAX。

详细阅读：https://my.oschina.net/u/876354/blog/1632862

B、AlexNet （2012）

首先它证明了CNN在复杂模型下的有效性，然后GPU实现使得训练在可接受的时间范围内得到结果，确实让CNN和GPU都大火了一把，顺便推动了有监督DL的发展。

模型八层（不算input层），但是它有60M以上的参数总量，事实上在参数量上比后面的网络都大。AlexNet包含了八个学习层——5个卷积层和3个全连接层。

AlexNet之所以能够成功，跟这个模型设计的特点有关，主要有：

a、使用了非线性激活函数：ReLU

b、防止过拟合的方法：Dropout，数据扩充（Data augmentation）

c、其他：多GPU实现，LRN归一化层的使用

局部响应归一化层，LocalResponse Normalization（LRN），侧抑制。也有助于提高泛化能力。核心思想是利用临近数据做归一化。

详细阅读：https://my.oschina.net/u/876354/blog/1633143

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货