每日一问之经典网络(1) - LeNet-5

caoqi95

发布于 2019-03-28 11:56:01

5130

发布于 2019-03-28 11:56:01

文章被收录于专栏：caoqi95的记录日志

说说经典网络 LeNet5 的架构？

之前写毕业论文的时候，看了一些关于深度学习历史方面的资料，里面就有提到 LeNet-5 这个经典的网络。今天从以下几点整理关于 LeNet-5 的相关知识：

LeNet-5 的来源
LeNet-5 的架构细节
LeNet-5 的意义

LeNet-5 的来源

LeNet-5 这个架构最先在 LeCun 这篇[1]论文中提出的，详见参考部分，当时被用于银行等机构来识别一些手写字符。除去输出层，LeNet-5 一共包含 7 层网络，每一层都包含可训练的参数。如下图所示，输入是一个 32x32 的图片，Cx 表示卷积层，Sx 表示下采样（subsampling）层，以及全连接层表示为 Fx，x 表示的是神经网络层的索引。

LeNet-5 的架构细节

C1: 是包含 6 个特征图（feature maps）的卷积层。每个特征图中的每个单位都连接到输入中的 5x5 邻域，即 5x5 就是一个卷积核或者说滤波器的尺寸。输出的特征图的尺寸是 28x28（32-5+1），可以推测出此时卷积核移动的步长为 1 ，根据公式 WF = ceil(float(W - F + 1)/float(stride))，可以得到 28 的结果。可训练参数为 156 ，156=(5x5+1)x6，每个卷积核中包含 5x5 的权重和 1 和偏置，且卷积核的个数为 6。连接数为：(5x5+1)x28x28x6=122304。
S2：是一个下采样层，也包含 6 个特征图。其输入是上一层网络的输出，所以输入尺寸为 28x28。每个特征图中的每个单位都连接到输入中的 2x2 邻域，即 2x2 是采样区域。然后这四个输入被加到一起，然后再乘以一个可训练的参数（权重），最后再加上一个可训练的偏置。所以，可训练的参数总数为：(1+1)x6=12 ；最后输出的特征图的尺寸为 14x14(28/2)；总连接数为：(2x2+1)x14x14x6=5880。
C3：是一个包含 16 个特征图的卷积层。卷积核尺寸为 5x5，输入尺寸为 14x14，输出尺寸为 10x10。这里需要注意的是，S2 中的特征图并不是每个都与 C3 中的每个特征图连接的，而是按照下表所示连接的。

为什么要这么安排呢？论文中提到原因是双重的。首先，一个非完整的连接方式将连接的数量限制在合理的范围内；更重要的是，该连接方式在网络中打破了对称。不同的特征图提取到的特征是不同的，因为它们得到的输入也是不同的。具体的连接方式如下：C3 中的前 6 个特征图以 S2 中 3 个相邻的子集特征图为输入；接下来的 6 个特征图以 S2 中 4 个相邻的子集特征图为输入；再接下来 3 个特征图以 S2 中 4 个不相邻的子集特征图为输入；最后一个特征图以 S2 中所有的 6 个特征图为输入。该网络层包含的可训练参数的总数为：6x(3x(5x5)+1)+6x(4x(5x5)+1)+3x(4x(5x5)+1)+(6x(5x5)+1) = 1516；总连接数为：10x10x1516 = 151600。

S4：是一个包含 16 个特征图的下采样层。其输入是上一层网络的输出，所以输入尺寸为 10x10。每个特征图中的每个单位都连接到输入中的 2x2 邻域，即 2x2 是采样区域。然后这四个输入被加到一起，然后再乘以一个可训练的参数（权重），最后再加上一个可训练的偏置。所以，可训练的参数总数为：(1+1)x16=32 ；最后输出的特征图的尺寸为 5x5(10/2)；总连接数为：(2x2+1)x5x5x16=2000。
C5：是一个包含 120 个特征图的卷积层。其输入是上一层网络的输出，所以输入尺寸为 5x5。在这一层卷积核的尺寸同样为 5x5，所以这一层输出的特征图尺寸为 1x1(5-5+1)。S4 与 C5 之间是全连接，所以，可训练参数和连接数均为：120x(16x(5x5)+1) = 48120。
F6：是一个包含 84 个单元的全连接层。输入为上一层 C5 的 120 维向量。该层的计算方式为输入向量与权重的点积再加上偏置。所以，可训练参数为：84x(120+1)=10164。
OUTPUT：最后一层是输出层，由欧几里德 RBF（Radial Basis Function）单元组成，每个单元表示一个类别，一共有 10 个类别。每个 RBF 的输出 yi 的计算如下所示：