从零开始深度学习（十）：激活函数

我是管小亮

发布于 2020-04-20 16:57:47

9320

发布于 2020-04-20 16:57:47

文章被收录于专栏：程序员管小亮的成长之路程序员管小亮的成长之路

文章首发于本人CSDN账号:https://blog.csdn.net/tefuirnever

由于微信不允许外部链接，你需要点击页尾左下角的“阅读原文”，才能访问文中的链接。

1、激活函数

使用一个神经网络时，需要决定使用哪种激活函数用隐藏层上？哪种用在输出节点上？不同的激活函数的效果是不一样的。下面将介绍一下常用的激活函数：

sigmoid 函数

函数图像和导数图像如下：

公式如下：

导数公式如下：

如果没有非线性的激活函数，再多的神经网络只是计算线性函数，或者叫恒等激励函数。sigmoid 函数是使用比较多的一个激活函数。

tanh 函数

函数图像和导数图像如下：

公式如下：

导数公式如下：

事实上，tanh 是 sigmoid 的向下平移和伸缩后的结果。对它进行了变形后，穿过了点，并且值域介于 +1 和 -1 之间。

所以效果总是优于 sigmoid 函数。因为函数值域在 -1 和 +1 的激活函数，其均值是更接近零均值的。在训练一个算法模型时，如果使用 tanh 函数代替 sigmoid 函数中心化数据，使得数据的平均值更接近0而不是0.5。但是也有例外的情况，有时对隐藏层使用 tanh 激活函数，而输出层使用 sigmoid 函数，效果会更好。

小结：

sigmoid 函数和 tanh 函数两者共同的缺点是，在未经过激活函数的输出特别大或者特别小的情况下，会导致导数的梯度或者函数的斜率变得特别小，最后就会接近于0，导致降低梯度下降的速度。

ReLu 函数

在机器学习另一个很流行的函数是：修正线性单元的函数（ReLu）。

函数图像和导数图像如下：

公式如下：

导数公式如下：

当是正值的情况下，导数恒等于1，当是负值的时候，导数恒等于0。Relu 的一个优点是当是负值的时候，导数等于0，当是正值的时候，导数等于1。这样在梯度下降时就不会受 梯度爆炸或者梯度消失 的影响了。

一些选择激活函数的经验法则：如果输出是0、1值（二分类问题），则输出层选择 sigmoid 函数，然后其它的所有单元都选择 Relu 函数。这是很多激活函数的默认选择，如果在隐藏层上不确定使用哪个激活函数，那么通常会使用 Relu 激活函数。有时，也会使用 tanh 激活函数。

Leaky Relu 函数

这里也有另一个版本的 Relu 被称为 Leaky Relu。

函数图像和导数图像如下：

与 ReLU 类似，公式如下：

导数公式如下：

当是负值时，这个函数的值不是等于0，而是轻微的倾斜。这个函数通常比 Relu 激活函数效果要好，尽管在实际中 Leaky ReLu 使用的并不多。

RELU 系列的两个激活函数的优点是：

第一，在未经过激活函数的输出的区间变动很大的情况下，激活函数的导数或者激活函数的斜率都会远大于0，在程序实现就是一个 if-else 语句，而 sigmoid 函数需要进行浮点四则运算，在实践中，使用 ReLu 激活函数神经网络通常会比使用 sigmoid 或者 tanh 激活函数学习的更快。
第二，sigmoid 和 tanh 函数的导数在正负饱和区的梯度都会接近于0，这会造成梯度弥散，而 Relu 和 Leaky ReLu 函数大于0部分都为常数，不会产生梯度弥散现象。(同时应该注意到的是，Relu 进入负半区的时候，梯度为0，神经元此时不会训练，产生所谓的 稀疏性，而 Leaky ReLu 不会有这问题。但 ReLu 的梯度一半都是0，有足够的隐藏层使得未经过激活函数的输出值大于0，所以对大多数的训练数据来说学习过程仍然可以很快。)

最后简单介绍完了常用的激活函数之后，来快速概括一下。

sigmoid 激活函数：除了输出层是一个二分类问题基本上不会用 sigmoid。
tanh 激活函数：tanh 是非常优秀的，几乎适合所有场合。
ReLu 激活函数：最常用的默认激活函数。如果不确定用哪个激活函数，就先使用 ReLu。

很多人在编写神经网络的时候，经常遇到一个问题是，有很多个选择：隐藏层单元的个数、激活函数的种类、初始化权值的方式、等等……这些选择想得到一个比较好的指导原则是挺困难的，所以其实更多的是经验，这也是深度学习被人称为经验主义学科和被人诟病的地方，更像是一种炼丹术，是不是？

你可能会看到好多博客，文章，或者哪一个工业界大佬或者学术界大佬说过，哪一种用的多，哪一种更好用。但是，你的神经网络的结构，以及需要解决问题的特殊性，是很难提前知道选择哪些效果更好的，或者没办法确定别人的经验和结论是不是对你同样有效。

所以通常的建议是：如果不确定哪一个激活函数效果更好，可以把它们都试试，然后在验证集或者测试集上进行评价，这样如果看到哪一种的表现明显更好一些，就在你的网络中使用它！！！

2、为什么需要非线性激活函数

为什么神经网络需要非线性激活函数？

首先是事实证明了，要让神经网络能够计算出有趣的函数，必须使用非线性激活函数。但是这么说太不科学了，现在来证明一下，证明过程如下：

，这是神经网络正向传播的方程，之前我们学过的，你还记得不？不记得去翻翻深度学习入门笔记（二）：神经网络基础。

现在去掉函数，也就是去掉激活函数，然后令，或者也可以直接令，这个有时被叫做 线性激活函数（更学术点的名字是 恒等激励函数，因为它们就是把输入值直接输出）。

因为：

(1)

(2)

将式子(1)代入式子(2)中，则得到：

(3)

然后简化多项式，你可以发现两个括号里的式子都可以简化，可得：

(4)

小结：如果使用 线性激活函数 或者叫 恒等激励函数，那么神经网络只是把输入线性组合再输出。

之后我们会学到 深度网络，什么是 深度网络？顾名思义，就是有很多层（很多隐藏层）的神经网络。然而，上面的证明告诉我们，如果使用线性激活函数或者不使用激活函数，那么无论你的神经网络有多少层，一直在做的也只是计算线性函数，都可以用表示，还不如直接去掉全部隐藏层，反正也没啥用。。。

总之，不能在隐藏层用线性激活函数，相反你可以用 ReLU 或者 tanh 或者 leaky ReLU 或者其他的非线性激活函数，唯一可以用线性激活函数的通常就是输出层。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-02-05，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

本文分享自程序员管小亮微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

神经网络

登录后参与评论

0 条评论

热度

从零开始深度学习（十）：激活函数

从零开始深度学习（十）：激活函数

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐