首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

每日一问之经典网络 LeNet-5

说说经典网络 LeNet5 的架构?

之前写毕业论文的时候,看了一些关于深度学习历史方面的资料,里面就有提到 LeNet-5 这个经典的网络。今天从以下几点整理关于 LeNet-5 的相关知识:

LeNet-5 的来源

LeNet-5 的架构细节

LeNet-5 的意义

LeNet-5 的来源

LeNet-5 这个架构最先在 LeCun 这篇[1]论文中提出的,详见参考部分,当时被用于银行等机构来识别一些手写字符。除去输出层,LeNet-5 一共包含 7 层网络,每一层都包含可训练的参数。如下图所示,输入是一个 32x32 的图片,Cx 表示卷积层,Sx 表示下采样(subsampling)层,以及全连接层表示为 Fx,x 表示的是神经网络层的索引。

LeNet-5 的架构细节

C1: 是包含 6 个特征图(feature maps)的卷积层。每个特征图中的每个单位都连接到输入中的 5x5 邻域,即 5x5 就是一个卷积核或者说滤波器的尺寸。输出的特征图的尺寸是 28x28(32-5+1) ,可以推测出此时卷积核移动的步长为 1 ,根据公式 WF= ceil(float(W - F + 1)/float(stride)),可以得到 28 的结果。可训练参数为 156 ,156=(5x5+1)x6,每个卷积核中包含 5x5 的权重和 1 和偏置,且卷积核的个数为 6。连接数为:(5x5+1)x28x28x6=122304。

S2:是一个下采样层,也包含 6 个特征图。其输入是上一层网络的输出,所以输入尺寸为 28x28。每个特征图中的每个单位都连接到输入中的 2x2 邻域,即 2x2 是采样区域。然后这四个输入被加到一起,然后再乘以一个可训练的参数(权重),最后再加上一个可训练的偏置。所以,可训练的参数总数为:(1+1)x6=12 ;最后输出的特征图的尺寸为 14x14(28/2);总连接数为:(2x2+1)x14x14x6=5880。

C3:是一个包含 16 个特征图的卷积层。卷积核尺寸为 5x5,输入尺寸为 14x14,输出尺寸为 10x10。这里需要注意的是,S2 中的特征图并不是每个都与 C3 中的每个特征图连接的,而是按照下表所示连接的。

为什么要这么安排呢?论文中提到原因是双重的。首先,一个非完整的连接方式将连接的数量限制在合理的范围内;更重要的是,该连接方式在网络中打破了对称。不同的特征图提取到的特征是不同的,因为它们得到的输入也是不同的。

具体的连接方式如下:C3 中的前 6 个特征图以 S2 中 3 个相邻的子集特征图为输入;接下来的 6 个特征图以 S2 中 4 个相邻的子集特征图为输入;再接下来 3 个特征图以 S2 中 4 个不相邻的子集特征图为输入;最后一个特征图以 S2 中所有的 6 个特征图为输入。该网络层包含的可训练参数的总数为:6x(3x(5x5)+1)+6x(4x(5x5)+1)+3x(4x(5x5)+1)+(6x(5x5)+1) = 1516;总连接数为:10x10x1516 = 151600。

S4:是一个包含 16 个特征图的下采样层。其输入是上一层网络的输出,所以输入尺寸为 10x10。每个特征图中的每个单位都连接到输入中的 2x2 邻域,即 2x2 是采样区域。然后这四个输入被加到一起,然后再乘以一个可训练的参数(权重),最后再加上一个可训练的偏置。所以,可训练的参数总数为:(1+1)x16=32 ;最后输出的特征图的尺寸为 5x5(10/2);总连接数为:(2x2+1)x5x5x16=2000。

C5:是一个包含 120 个特征图的卷积层。其输入是上一层网络的输出,所以输入尺寸为 5x5。在这一层卷积核的尺寸同样为 5x5,所以这一层输出的特征图尺寸为 1x1(5-5+1)。S4 与 C5 之间是全连接,所以,可训练参数和连接数均为:120x(16x(5x5)+1) = 48120。

F6:是一个包含 84 个单元的全连接层。输入为上一层 C5 的 120 维向量。该层的计算方式为输入向量与权重的点积再加上偏置。所以,可训练参数为:84x(120+1)=10164。

OUTPUT:最后一层是输出层,由欧几里德 RBF(Radial Basis Function)单元组成,每个单元表示一个类别,一共有 10 个类别。每个 RBF 的输出 yi的计算如下所示:

换句话说就是,每个 RBF 单元的输出都是计算其输入向量和它参数向量之间的欧几里德距离。输入向量与参数向量相距越远,输出的 RBF 值越大。一个特定 RBF 的输出可以被解释为衡量输入模式与 RBF 相关联的类的模型之间的拟合。

LetNet-5 的意义

开创了卷积神经网络用于图像识别的先例,让模型直接作用于图像而不是人工提取的特征,大大减少了人工的操作。但囿于当时的计算限制,没能在更多任务上取得很好的效果。后来,计算机计算能力的大幅提升,卷积神经网络的计算能够很好的得到解决,就有了后面 AlexNet 的提出。

参考

[1]. Gradient-Based Learning Applied to Document Recognition

[2]. 深度学习500问-Tan-04第四章 经典网络.pdf

P.S:文中有错欢迎指出,互相学习。以及欢迎关注我的公众号 :)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181231G0T7EH00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券