只不过在运算Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]} 中，b^{[l]} 会被当成(n^{[l]},m) 矩阵进行运算，这是基于python numpy的广播特性，且b^{[l]} 每一列向量都是一样的。dW^{[l]} 和db^{[l]} 的维度分别与W^{[l]} 和b^{[l]} 的相同。

不过，Z^{[l]} 和A^{[l]} 的维度发生了变化：

Z^{[l]}:\ (n^{[l]},m)
A^{[l]}:\ (n^{[l]},m)
dZ^{[l]} 和dA^{[l]} 的维度分别与Z^{[l]} 和A^{[l]} 的相同。

4.为什么需要深度网络

为什么使用深层表示？ Why Deep Representations?

当今大家看到的很多AI智能场景背后都是巨大的神经网络在支撑，强大能力很大一部分来源于神经网络足够“深”，也就是说随着网络层数增多，神经网络就更加复杂参数更多，学习能力也更强。下面是一些典型的场景例子说明。

4.1 人脸识别例子

如下图所示的人脸识别场景，训练得到的神经网络，每一层的作用有差别：

第一层所做的事就是从原始图片中提取出人脸的轮廓与边缘，即边缘检测。这样每个神经元得到的是一些边缘信息。
第二层所做的事情就是将前一层的边缘进行组合，组合成人脸一些局部特征，比如眼睛、鼻子、嘴巴等。
后续层次逐层把这些局部特征组合起来，融合成人脸的模样。

为什么需要深度网络

可以看出，随着层数由浅到深，神经网络提取的特征也是从边缘到局部特征到整体，由简单到复杂。隐藏层越多，能够提取的特征就越丰富、越复杂，模型的准确率也可能会随之越高。（详细的人脸识别原理可以查看ShowMeAI的文章 CNN应用：人脸识别和神经风格转换 ）

4.2 语音识别例子

语音识别模型也是类似的道理：

浅层的神经元能够检测一些简单的音调
较深的神经元能够检测出基本的音素
更深的神经元就能够检测出单词信息
网络足够深的话，还能对短语、句子进行检测

为什么需要深度网络

神经网络从浅到深，提取的特征从简单到复杂。特征复杂度与神经网络层数成正相关。特征越来越复杂，表达能力和功能也越强。（详细的语音识别原理知识可以查看ShowMeAI的文章 Seq2seq序列模型和注意力机制 ）

4.3 深度网络其他优势

除学习能力与特征提取强度之外，深层网络还有另外一个优点，就是能够减少神经元个数，从而减少计算量。

下面有一个例子，使用电路理论，计算逻辑输出：

y=x_1\oplus x_2\oplus x_3\oplus\cdots\oplus x_n

上面的计算表达式中，\oplus 表示「异或」操作。

对于这个逻辑运算，如果使用深度网络完成，每层将前一层的两两单元进行异或，最后到一个输出，如下图左边所示。

这样，整个深度网络的层数是log_2(n) (不包含输入层)。总共使用的神经元个数为：

1+2+\cdots+2^{log_2(n)-1}=1\cdot\frac{1-2^{log_2(n)}}{1-2}=2^{log_2(n)}-1=n-1

可见，输入个数是n ，这种深层网络所需的神经元个数仅仅是n-1 个。

为什么需要深度网络

如果不用深层网络，仅仅使用单个隐藏层，如上右图所示，由于包含了所有的逻辑位(0和1)，那么需要的神经元个数O(2^n) 是指数级别的大小。

对于其他场景和问题也一样，处理同样的逻辑问题，深层网络所需的神经元个数比浅层网络要少很多。这也是深层神经网络的优点之一。

尽管深度学习有着非常显著的优势，吴恩达老师还是建议对实际问题进行建模时，尽量先选择层数少的神经网络模型，这也符合奥卡姆剃刀定律(Occam’s Razor)。对于比较复杂的问题，再使用较深的神经网络模型。

5.构建深度网络单元块

搭建神经网络块 Building Blocks of Deep Neural Networks

下面用流程块图来解释神经网络前向传播和反向传播过程。

构建深度网络单元块

如图所示，对于第l 层来说，前向传播过程中，我们有：

输入：a^{[l-1]}
输出：a^{[l]}
参数：W^{[l]} 、b^{[l]}
缓存变量：z^{[l]}

反向传播过程中：

输入：da^{[l]}
输出：da^{[l-1]} 、dW^{[l]} 、db^{[l]}
参数：W^{[l]} 、b^{[l]}

上面是第l 层的流程块图，对于神经网络所有层，整体的流程块图前向传播过程和反向传播过程如下所示：

构建深度网络单元块

6.前向传播与反向传播

前向传播和反向传播 Forward and Backward Propagation

我们继续接着上一部分流程块图的内容，推导神经网络正向传播过程和反向传播过程的具体表达式。

6.1 前向传播过程

令层数为第l 层，输入是a^{[l-1]} ，输出是a^{[l]} ，缓存变量是z^{[l]} 。其表达式如下：

z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]}

a^{[l]}=g^{[l]}(z^{[l]})

m 个训练样本的形态下，向量化形式为：

Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}

A^{[l]}=g^{[l]}(Z^{[l]})

6.2 反向传播过程

输入是da^{[l]} ，输出是da^{[l-1]} 、dW^{[l]} 、db^{[l]} 。其表达式如下：

dz^{[l]}=da^{[l]}\ast g^{[l]\prime}(z^{[l]})

dW^{[l]}=dz^{[l]}\cdot a^{[l-1]}

db^{[l]}=dz^{[l]}

da^{[l-1]}=W^{[l]T}\cdot dz^{[l]}

由上述第四个表达式可得da^{[l]}=W^{[l+1]T}\cdot dz^{[l+1]} ，将da^{[l]} 代入第一个表达式中可以得到：

dz^{[l]}=W^{[l+1]T}\cdot dz^{[l+1]}\ast g^{[l]\prime}(z^{[l]})

该式非常重要，反映了dz^{[l+1]} 与dz^{[l]} 的递推关系。

m 个训练样本的形态下，向量化形式为：

d Z^{[l]}=d A^{[l]}\ast g^{[l]\prime} (Z^{[l]})

dW^{[l]}=\frac1mdZ^{[l]}\cdot A^{[l-1]T}

db^{[l]}=\frac1mnp.sum(dZ^{[l]},axis=1,keepdim=True)

dA^{[l-1]}=W^{[l]T}\cdot dZ^{[l]}

dZ^{[l]}=W^{[l+1]T}\cdot dZ^{[l+1]}\ast g^{[l]\prime}(Z^{[l]})

7.参数与超参数

参数 VS 超参数 Parameters vs Hyperparameters

神经网络中有两个大家要重点区分的概念：参数(parameters)和超参数(hyperparameters)。

神经网络中的参数就是我们熟悉的W^{[l]} 和b^{[l]} 。
神经网络的超参数是例如学习率\alpha ，训练迭代次数N ，神经网络层数L ，各层神经元个数n^{[l]} ，激活函数g(z) 等。
之所以叫做超参数，是因为它们需要提前敲定，而且它们会决定参数W^{[l]} 和b^{[l]} 的值。

参数与超参数

如何设置最优的超参数是一个比较困难的、需要经验知识的问题。通常的做法是选择超参数一定范围内的值，分别代入神经网络进行训练，测试cost function随着迭代次数增加的变化，根据结果选择cost function最小时对应的超参数值。这类似于机器学习中的实验验证的方法。(关于机器学习的模型评估详见 ShowMeAI文章图解机器学习 | 模型评估方法与准则)

8.神经网络vs人脑

深度学习和大脑的关联性 What Does this Have to Do with the Brain?

神经网络跟人脑机制到底有什么联系呢？究竟有多少的相似程度？

深度网络 VS 大脑

我们前面看到神经网络实际上可以分成两个部分：前向传播过程和反向传播过程。神经网络的每个神经元采用激活函数的方式，类似于感知机模型。这种模型与人脑神经元是类似的，但是一种非常简化的人脑神经元模型。

人脑神经元可分为树突、细胞体、轴突三部分。树突接收外界电刺激信号(类比神经网络中神经元输入)，传递给细胞体进行处理(类比神经网络中神经元激活函数运算)，最后由轴突传递给下一个神经元(类比神经网络中神经元输出)。

深度网络 VS 大脑

人脑神经元的结构和处理方式要复杂的多，神经网络模型只是非常简化的模型。

人脑如何进行学习？是否也是通过反向传播和梯度下降算法现在还不清楚，可能会更加复杂。这是值得生物学家探索的事情。

参考资料

图解机器学习 | 模型评估方法与准则

深度学习教程 ◉ 吴恩达专项课程最全笔记

深度学习教程 | 深层神经网络

引言

1.深层神经网络

2.深层神经网络前向运算

2.1 单个样本的计算

2.2 m个样本的批量计算

3.向量化形态下的矩阵维度

4.为什么需要深度网络

4.1 人脸识别例子

4.2 语音识别例子

4.3 深度网络其他优势

5.构建深度网络单元块

6.前向传播与反向传播

6.1 前向传播过程

6.2 反向传播过程

7.参数与超参数

8.神经网络vs人脑

参考资料

ShowMeAI系列教程推荐

推荐文章

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐