01.神经网络和深度学习 W3.浅层神经网络

Michael阿明

发布于 2021-02-19 11:42:10

2990

发布于 2021-02-19 11:42:10

文章被收录于专栏：Michael阿明学习之路

文章目录

参考：

吴恩达视频课

深度学习笔记

1. 神经网络概览

还有反向的求导过程

2. 神经网络的表示

3. 神经网络的输出

每个神经网络单元的工作包括两部分：计算 z，然后根据激活函数（sigmoid）计算 σ(z)

输入一个样本的特征向量，四行代码计算出一个简单神经网络的输出，那么多个样本呢？往下看

4. 多样本向量化

列向看，对应于不同的特征，就是神经网络中的该层的各个节点

行向看，对应于不同的训练样本

5. 激活函数

tanh激活函数是 sigmoid的平移伸缩结果，其效果在所有场合都优于sigmoid，tanh几乎适合所有场合
例外是，二分类问题的输出层，想让结果介于 0，1之间，所以使用 sigmoid 激活函数

tanh、 sigmoid两者的缺点：

在特别大或者特别小 z z z 的情况下，导数的梯度或者函数的斜率会变得特别小，最后就会接近于0，导致降低梯度下降的速度。

修正线性单元的函数（ReLu）

激活函数的选择经验：

如果输出是0、1值（二分类问题），输出层选择sigmoid函数，其它所有单元都选择Relu函数
隐藏层通常会使用Relu激活函数。有时，也会使用tanh激活函数，但Relu的一个缺点是：当是负值的时候，导数等于0
另一个版本的Relu被称为Leaky Relu，当是负值时，这个函数的值不等于0，而是轻微的倾斜，这个函数通常比Relu激活函数效果要好，尽管在实际中Leaky ReLu使用的并不多

ReLu、Leaky ReLu的优点：

sigmoid函数需要进行浮点四则运算，在实践中，使用ReLu激活函数学习的更快
sigmoid和tanh函数的导数在正负饱和区的梯度接近于0，这会造成梯度弥散，而Relu和Leaky ReLu函数大于0部分都为常数，不会产生梯度弥散现象。(Relu进入负半区的时候，梯度为0，神经元此时不会训练，产生所谓的稀疏性，而Leaky ReLu不会有这问题)
虽然ReLu的梯度一半都是0，但是，有足够的隐藏层使得 z z z 值大于0，所以对大多数的训练数据来说学习过程仍然可以很快

6. 为什么需要非线性激活函数

线性隐藏层一点用也没有，因为线性函数的组合本身就是线性函数，所以除非你引入非线性，否则你无法计算出更有趣的函数，即使网络层数再多也不行

不能在隐藏层用线性激活函数，可以用ReLU、tanh、leaky ReLU或者其他的非线性激活函数
唯一可以用 线性激活函数的通常就是输出层；在隐藏层使用 线性激活函数非常少见

7. 激活函数的导数

sigmoid

tanh

ReLu Rectified Linear Unit

             z=0 时，可以让导数为 0，或者 1

Leaky ReLU Leaky linear unit

                  z=0 时，可以让导数为 0.01，或者 1

8. 随机初始化

对于一个神经网络，如果你把权重或者参数都初始化为0，那么梯度下降将不会起作用。

常数为什么是0.01，而不是100或者1000，sigmoid/tanh 激活函数在很平坦的地方，学习非常慢

当你训练一个非常非常深的神经网络，你可能要试试0.01以外的常数

作业

01.神经网络和深度学习 W3.浅层神经网络（作业：带一个隐藏层的神经网络）

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020/08/26 ，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

深度学习

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

神经网络

深度学习

登录后参与评论

0 条评论

热度

01.神经网络和深度学习 W3.浅层神经网络

01.神经网络和深度学习 W3.浅层神经网络

文章目录

1. 神经网络概览

2. 神经网络的表示

3. 神经网络的输出

4. 多样本向量化

5. 激活函数

6. 为什么需要非线性激活函数

7. 激活函数的导数

8. 随机初始化

作业

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

01.神经网络和深度学习 W3.浅层神经网络

01.神经网络和深度学习 W3.浅层神经网络

文章目录

1. 神经网络概览

2. 神经网络的表示

3. 神经网络的输出

4. 多样本向量化

5. 激活函数

6. 为什么需要 非线性激活函数

7. 激活函数的导数

8. 随机初始化

作业

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

6. 为什么需要非线性激活函数