前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日一问之经典网络(1) - LeNet-5

每日一问之经典网络(1) - LeNet-5

作者头像
caoqi95
发布2019-03-28 11:56:01
5130
发布2019-03-28 11:56:01
举报
文章被收录于专栏:caoqi95的记录日志

说说经典网络 LeNet5 的架构?

之前写毕业论文的时候,看了一些关于深度学习历史方面的资料,里面就有提到 LeNet-5 这个经典的网络。今天从以下几点整理关于 LeNet-5 的相关知识:

  • LeNet-5 的来源
  • LeNet-5 的架构细节
  • LeNet-5 的意义

LeNet-5 的来源

LeNet-5 这个架构最先在 LeCun 这篇[1]论文中提出的,详见参考部分,当时被用于银行等机构来识别一些手写字符。除去输出层,LeNet-5 一共包含 7 层网络,每一层都包含可训练的参数。如下图所示,输入是一个 32x32 的图片,Cx 表示卷积层,Sx 表示下采样(subsampling)层,以及全连接层表示为 Fx,x 表示的是神经网络层的索引。

LeNet-5 的架构细节

  • C1: 是包含 6 个特征图(feature maps)的卷积层。每个特征图中的每个单位都连接到输入中的 5x5 邻域,即 5x5 就是一个卷积核或者说滤波器的尺寸。输出的特征图的尺寸是 28x28(32-5+1) ,可以推测出此时卷积核移动的步长为 1 ,根据公式 WF = ceil(float(W - F + 1)/float(stride)),可以得到 28 的结果。可训练参数为 156 ,156=(5x5+1)x6,每个卷积核中包含 5x5 的权重和 1 和偏置,且卷积核的个数为 6。连接数为:(5x5+1)x28x28x6=122304。
  • S2:是一个下采样层,也包含 6 个特征图。其输入是上一层网络的输出,所以输入尺寸为 28x28。每个特征图中的每个单位都连接到输入中的 2x2 邻域,即 2x2 是采样区域。然后这四个输入被加到一起,然后再乘以一个可训练的参数(权重),最后再加上一个可训练的偏置。所以,可训练的参数总数为:(1+1)x6=12 ;最后输出的特征图的尺寸为 14x14(28/2);总连接数为:(2x2+1)x14x14x6=5880。
  • C3:是一个包含 16 个特征图的卷积层。卷积核尺寸为 5x5,输入尺寸为 14x14,输出尺寸为 10x10。这里需要注意的是,S2 中的特征图并不是每个都与 C3 中的每个特征图连接的,而是按照下表所示连接的。

为什么要这么安排呢?论文中提到原因是双重的。首先,一个非完整的连接方式将连接的数量限制在合理的范围内;更重要的是,该连接方式在网络中打破了对称。不同的特征图提取到的特征是不同的,因为它们得到的输入也是不同的。 具体的连接方式如下:C3 中的前 6 个特征图以 S2 中 3 个相邻的子集特征图为输入;接下来的 6 个特征图以 S2 中 4 个相邻的子集特征图为输入;再接下来 3 个特征图以 S2 中 4 个不相邻的子集特征图为输入;最后一个特征图以 S2 中所有的 6 个特征图为输入。该网络层包含的可训练参数的总数为:6x(3x(5x5)+1)+6x(4x(5x5)+1)+3x(4x(5x5)+1)+(6x(5x5)+1) = 1516;总连接数为:10x10x1516 = 151600。

  • S4:是一个包含 16 个特征图的下采样层。其输入是上一层网络的输出,所以输入尺寸为 10x10。每个特征图中的每个单位都连接到输入中的 2x2 邻域,即 2x2 是采样区域。然后这四个输入被加到一起,然后再乘以一个可训练的参数(权重),最后再加上一个可训练的偏置。所以,可训练的参数总数为:(1+1)x16=32 ;最后输出的特征图的尺寸为 5x5(10/2);总连接数为:(2x2+1)x5x5x16=2000。
  • C5:是一个包含 120 个特征图的卷积层。其输入是上一层网络的输出,所以输入尺寸为 5x5。在这一层卷积核的尺寸同样为 5x5,所以这一层输出的特征图尺寸为 1x1(5-5+1)。S4 与 C5 之间是全连接,所以,可训练参数和连接数均为:120x(16x(5x5)+1) = 48120。
  • F6:是一个包含 84 个单元的全连接层。输入为上一层 C5 的 120 维向量。该层的计算方式为输入向量与权重的点积再加上偏置。所以,可训练参数为:84x(120+1)=10164。
  • OUTPUT:最后一层是输出层,由欧几里德 RBF(Radial Basis Function)单元组成,每个单元表示一个类别,一共有 10 个类别。每个 RBF 的输出 yi 的计算如下所示:
y_i=\sum_{i}(x_i - w_{ij})^2
y_i=\sum_{i}(x_i - w_{ij})^2

换句话说就是,每个 RBF 单元的输出都是计算其输入向量和它参数向量之间的欧几里德距离。输入向量与参数向量相距越远,输出的 RBF 值越大。一个特定 RBF 的输出可以被解释为衡量输入模式与 RBF 相关联的类的模型之间的拟合。

LetNet-5 的意义

开创了卷积神经网络用于图像识别的先例,让模型直接作用于图像而不是人工提取的特征,大大减少了人工的操作。但囿于当时的计算限制,没能在更多任务上取得很好的效果。后来,计算机计算能力的大幅提升,卷积神经网络的计算能够很好的得到解决,就有了后面 AlexNet 的提出。

参考

[1]. Gradient-Based Learning Applied to Document Recognition [2]. 深度学习500问-Tan-04第四章 经典网络.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.12.31 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • LeNet-5 的来源
  • LeNet-5 的架构细节
  • LetNet-5 的意义
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档