温故知新,回顾一下卷积的历史,更好的阅读目标检测、字符识别等论文。
一、先简单回顾一下CNN:
A、局部感受野:在图像中的空间联系也是类似,局部范围内的像素之间联系较为紧密,而距离较远的像素则相关性较弱。因而,每个神经元其实没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就得到了全局的信息。这种模式就是卷积神经网络中降低参数数目的重要神器:局部感受野。
B、卷积操作 与 权值共享
要训练的参数就是卷积核的大小。
C、池化:
池化就是将输入图像进行缩小,减少像素信息,只保留重要信息。包括最大值(max-pooling)、平均值(mean-pooling)池化。
D、Relu 激活
常用的激活函数有sigmoid、tanh、relu等等,前两者sigmoid/tanh比较常见于全连接层,后者ReLU常见于卷积层。激活函数的作用是用来加入非线性因素,把卷积层输出结果做非线性映射。
E、深层组合
将卷积层、Relu和池化层组合起来。
F、全连接层
全连接层在整个卷积神经网络中起到“分类器”的作用,即通过卷积、激活函数、池化等深度网络后,再经过全连接层对结果进行识别分类。首先将经过卷积、激活函数、池化的深度网络后的结果串起来。
卷积神经网络:将以上所有结果串起来后,就形成了一个“卷积神经网络”(CNN)结构。
二、经典网络结构
A、LeNet5(1986)
由两个卷积层,两个池化层,以及两个全连接层组成。 卷积都是5*5的模板,stride=1,池化都是MAX。
详细阅读:https://my.oschina.net/u/876354/blog/1632862
B、AlexNet (2012)
首先它证明了CNN在复杂模型下的有效性,然后GPU实现使得训练在可接受的时间范围内得到结果,确实让CNN和GPU都大火了一把,顺便推动了有监督DL的发展。
模型八层(不算input层),但是它有60M以上的参数总量,事实上在参数量上比后面的网络都大。AlexNet包含了八个学习层——5个卷积层和3个全连接层。
AlexNet之所以能够成功,跟这个模型设计的特点有关,主要有:
a、使用了非线性激活函数:ReLU
b、防止过拟合的方法:Dropout,数据扩充(Data augmentation)
c、其他:多GPU实现,LRN归一化层的使用
局部响应归一化层,LocalResponse Normalization(LRN),侧抑制。也有助于提高泛化能力。核心思想是利用临近数据做归一化。
详细阅读:https://my.oschina.net/u/876354/blog/1633143
领取专属 10元无门槛券
私享最新 技术干货