专栏首页用户2442861的专栏神经网络与深度学习(4):改进神经网络的学习方法

神经网络与深度学习(4):改进神经网络的学习方法

本文总结自《Neural Networks and Deep Learning》第3章的内容。 

交叉熵代价函数(The cross-entropy cost function)

1. 神经网络学习很慢的含义?

学习慢 => 偏导数 ∂C/∂w 和 ∂C/∂b 值小。

2. 交叉熵的基本定义

引入交叉熵代价函数就是为了解决学习慢的问题。

交叉熵代价函数的定义如下:

将交叉熵看作代价函数,是基于它的以下两个特性:

(1)它是非负的。

(2)如果对于所有的训练输入x,神经元实际的输出接近目标值,那么交叉熵将接近0。

相比于二次代价函数,交叉熵还有一个特性可以避免学习速度下降的问题。

3. 为什么交叉熵代价函数代价函数可以解决学习慢的问题?

因为交叉熵函数关于权重和偏置的偏导数的表达式中不存在σ′(z)这样的项,从而避免了学习缓慢。具体分析如下:

二次函数关于权重和偏置的偏导数分别是:

而σ函数的图像在神经元的输出接近1的时候,曲线变得相当平,所以σ′(z) 就很小了。上述公式也告诉我们∂C/∂w 和 ∂C/∂b 值会非常小。这其实就是学习缓慢的原因所在。

交叉熵函数关于权重和偏置的偏导数分别是:

上述公式表明权重学习的速度受到σ(z)-y,也就是输出中的误差的控制。同时交叉熵函数还避免了像在二次代价函数中类似σ′(z) 导致的学习缓慢。

4. 学习率的选择

不同的代价函数应该搭配不同的学习率。

5. 在什么时候用交叉熵来替换二次代价函数?

如果在输出神经元是S 型神经元时,交叉熵一般都是更好的选择。

如果输出神经元是线性的那么二次代价函数不再会导致学习速度下降的问题。在此情形下,二次代价函数就是一种合适的选择。

柔性最大值(softmax)

另外一种解决学习缓慢问题的方法。

柔性最大值的想法其实就是为神经网络定义一种新式的输出层。

1. 基本原理

(1)首先计算带权输入

(2)不在带权输入z上使用S型函数来获得输出,而是使用softmax函数来获得输出。

公式(1)

其中,分母中的求和是在所有的输出神经元上进行的。

另外一个特性:根据定义,输出的激活值加起来正好为1。

公式(2)

由公式(1)(2),我们看到柔性最大值层的输出是一些相加为1正数的集合。换言之,柔性最大值层的输出可以被看做是一个概率分布。

在很多问题中,使用softmax是很方便的。比如在MNIST分类问题中,我们可以将输出层第j个神经元的激活值解释成网络估计正确数字分类为j的概率。

2. softmax如何解决学习缓慢的问题

先定义一个对数似然(log-likelihood)代价函数。

对数似然函数满足我们期待的代价函数的条件。

对数似然代价函数关于权重和偏置的偏导数分别是:

这些方程其实和之前的交叉熵得到的类似。只是之前的是平均值。

正如前面的分析,这些表达式确保我们不会遇到学习缓慢的问题。事实上,把一个具有对数似然代价的柔性最大值输出层,看作与一个具有交叉熵代价的S型输出层非常相似,这是很有用的。

3. 应该使用一个具有交叉熵代价的S 型输出层,还是一个具有对数似然代价的柔性最大值输出层呢?

实际上,在很多应用场景中,这两种方式的效果都不错。 柔性最大值加上对数似然的组合更加适用于那些需要将输出激活值解释为概率的场景。

过度拟合(Overfitting)

1. 看个栗子

(1)cost上的对比

先在训练集上跑,训练集上cost和epoch(截取200-400之间)的关系如下:

测试集上:

(2)分类准确率上的对比

2. 检测过度拟合

我们在每个迭代期的最后都计算在validation_data 上的分类准确率。一旦分类准确率已经饱和,就停止训练。这个策略被称为提前停止。

3. 降低过度拟合

(1)一般来说,最好的降低过度拟合的方式之一就是增加训练样本的量。有了足够的训练数据,就算是一个规模非常大的网络也不大容易过度拟合。不幸的是,训练数据其实是很难或者很昂贵的资源,所以这不是一种太切实际的选择。

(2)降低网络规模。但是更深层更大的网络潜在有更强的学习能力。

(3)规范化。即使对于固定的神经网络和固定的训练集, 仍然可以减少overfitting。

正则化/规范化(regularization)

1. 基本原理

规范化有很多技术,这里给出一种最为常用的规范化手段—— 有时候被称为权重衰减(weight decay)或者L2 规范化。

L2 规范化的想法是增加一个额外的项到代价函数上,这个项叫做规范化项。

其中C0是原始的代价函数,第二个现在加入的就是所有权重的平方的和。然后使用一个因子λ/2n 进行量化调整,其中λ>0 可以称为规范化参数,而n就是训练集合的大小。

需要注意的是,规范化项里面并不包含偏置。

规范化的效果是让网络倾向于学习小一点的权重。

规范化可以当做一种寻找小的权重和最小化原始的代价函数之间的折中。由λ的取值决定,λ越小,就偏向于最小化原始代价函数,反之,倾向于小的权重。

2. 好处

(1)减轻过度拟合和提高分类准确率。

(2)规范化的网络能够提供更容易复制的结果。无规范化的网络会偶然被限制住,不同的运行会给出相差很大的结果。

3. 为何规范化可以帮助减轻过度拟合?

规范化的神经网络常常能够比非规范化的泛化能力更强,这只是一种实验事实(empirical fact)。目前还没有一整套具有说服力的理论解释。仅仅是一些不完备的启发式规则或者经验。

4. 正则化的其他技术

(1)L1 规范化:是在未规范化的代价函数上加上一个权重绝对值的和。

(2)弃权(Dropout):从随机(临时)地删除网络中的一半的隐藏神经元开始,同时让输入层和输出层的神经元保持不变。

(3)人为增加训练样本

权重初始化(Weight initialization)

理解这部分需要先弄明白正态分布(高斯分布)、均值、标准差、方差的意义。 

结论:假设我们有一个有 n_in 个输入权重的神经元,我们会使用均值=0,标准差= 1/sqrt(n_in)的正态随机分布初始化这些权重。

原因:若这样初始化的话,那么大部分带权输入z的取值都在1和-1之间,隐藏神经元的输出σ(z) 就不太会接近1或者0。也就是神经元没有饱和,学习过程不会被减慢。

神经网络的其他技术

1.其他的优化代价函数的技术

(1)Hessian 技术

(2)基于momentum 的梯度下降

(3)更多技术介绍参考这篇论文:http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf

2.人工神经元的其他模型

(1)S型神经元

(2)tanh神经元

使用双曲正切(hyperbolic tangent)函数替换了S 型函数。tanh 神经元的输出的值域是(-1,1) ,而非(0,1)。

(3)ReLU

修正线性神经元(rectified linear neuron)或者修正线性单元(rectified linear unit),简记为ReLU。

输入为x,权重向量为w,偏置为b 的ReLU 神经元的输出是:max(0, w*x + b)。

像sigmoid, tanh一样, 也可以扑模拟何函数。

优势:提高ReLU 的带权输入并不会导致其饱和,所以就不存在sigmoid, tanh那样的学习速度下降。若带权输入是负数,则梯度消失为0,所以神经元就停止学习了。这两点从ReLU的图像即可看出来。

问题:如何选择神经元?要靠实验比较sigmoid, tanh和ReLU的好坏。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 我不是算命先生,却对占卜有了疑惑——如何论证“占卜前提”的正确与否

    事出有因,我对《周易》感兴趣了很多年。只是觉得特别有趣,断断续续学习了一些皮毛。这几天又偶然接触到了《梅花易数》,觉得很是精彩,将五行八卦天干地支都串联了起来。...

    一石匠人
  • 天干地支五行八卦的对应关系

    一石匠人
  • 复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

    从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

    haifeiWu
  • 声音功能让儿童编程更有创造性

    导读:Scratch中声音功能非常强大,除了常规的音效,你甚至可以模拟各种乐器的各个发音、设置节拍、休止……如果你愿意,甚至可以用它创作一个交响乐。我们可以引导...

    一石匠人
  • 儿童创造力教育与编程教育的碰撞——MIT雷斯尼克教授最新理论梗概

    儿童编程教育已经在我国各一线二线城市疯狂出现,颇有“烂大街”的趋势。我们不禁要问很多很多问题:

    一石匠人
  • 什么样的人生才是有意义的人生——没有标准的标准答案

    【导读】其实我们可以跳出这个小圈圈去更加科客观地看一下这个世界。在夜晚的时候我们仰望天空,浩瀚的宇宙中整个地球只是一粒浮尘,何况地球上一个小小的人类?在漫长的历...

    一石匠人
  • SQL中GROUP BY用法示例

    GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

    Awesome_Tang
  • 【系统设置】CentOS 修改机器名

    ken.io
  • 一张图理清《梅花易数》梗概

    学《易经》的目的不一定是为了卜卦,但是了解卜卦绝对能够让你更好地了解易学。今天用一张思维导图对《梅花易数》的主要内容进行概括,希望能够给学友们提供帮助。

    一石匠人
  • 《动物魔法学校》儿童学编程Scratch之“外观”部分

    导读:本文通过一个案例《动物魔法学校》来学习Scratch语言的“外观”部分。之后通过一系列其他功能的综合运用对作品功能进行了扩展。

    一石匠人

扫码关注云+社区

领取腾讯云代金券