神经网络中的权值初始化：从最基本的方法到Kaiming方法一路走来的历程

石晓文

发布于 2019-11-12 21:00:28

6760

发布于 2019-11-12 21:00:28

文章被收录于专栏：小小挖掘机小小挖掘机

作者：James Dellinger 编译：ronghuaiyang

导读

这篇文章通过实验一步一步验证了如何从最基础的初始化方法发展到Kaiming初始化方法，以及这之间的动机。

这篇文章中，我会通过不同的方法探索初始化神经网络层权值。一步一步地，通过各种简短的实验和思维练习，我们将发现为什么适当的初始化权重对训练深度神经网络如此重要。在此过程中，我们将介绍研究人员多年来提出的各种方法，并最终深入研究最适合你的最有可能使用的现代网络体系结构的方法。

为什么要初始化权值

权值初始化的目的是防止层激活输出在深度神经网络的正向传递过程中爆炸或消失。如果发生任何一种情况，损失梯度要么太大，要么太小，无法有利地向后流动，如果网络能够这样做，则需要更长的时间才能收敛。

矩阵乘法是神经网络的基本数学运算。在多层的深度神经网络中，一个前向传递只需要在每一层执行连续的矩阵乘法，在该层的输入和权重矩阵之间。这一层的乘积变成了下一层的输入，以此类推。

对于一个说明这一点的简单示例，我们假设有一个向量x，其中包含一些网络输入。当训练神经网络以确保我们的输入值被缩放到均值为0，标准差为1的正态分布中时，这是一种标准的做法。

假设我们有一个简单的100层网络，没有激活，并且每个层都有一个矩阵a，其中包含该层的权重。为了完成单次前向传递，我们必须在每100层的输入和权重之间执行矩阵乘法，这将导致总共100个连续矩阵乘法。

这样的话，从相同的标准正态分布初始化层权值，再缩放到我们的输入从来都不是一个好主意。为了了解原因，我们可以模拟通过我们假设的网络的正向传递。

哇！在这100次乘法中，其中一层的输出变得如此之大，以至于计算机都无法识别它们的标准差和平均值。我们可以确切地看到这花了多长时间。

激活输出在29个网络层中爆炸。我们显然将权重初始化为太大。

不幸的是，我们还必须担心防止层输出消失。为了看看当我们初始化网络权值时发生了什么——我们将调整权值，使其在均值为0的正态分布内时，标准差为0.01。

在上述假设的正向传递过程中，激活输出完全消失。

总而言之，如果初始化的权重过大，网络就不能很好地学习。当权重初始化过小时也会发生同样的情况。

我们能不能找到最佳的点？

请记住，如上所述，完成通过神经网络的正向传递所需要的数学只不过是矩阵乘法的连续。如果我们有一个输出y，它是我们的输入向量x和权重矩阵a之间矩阵乘法的乘积，那么y中的每个元素i都定义为：

其中i为权重矩阵a的给定行索引，k为权重矩阵a中的给定列索引，输入向量x中的元素索引，n为x中元素的范围或总数。这也可以在Python中定义为：

 y[i] = sum([c*d for c,d in zip(a[i], x)])

我们可以证明在给定层，我们使用初始化标准正态分布的输入的矩阵乘积矩阵x 和权值矩阵a 的矩阵乘法平均而言，有一个标准偏差，非常接近输入连接的数量的平方根，它在我们的例子中是 √512。

如果我们从定义矩阵乘法的角度来看，这个属性并不奇怪：为了计算y，我们将输入x的一个元素与权重a的一列相乘，得到512个乘积。在我们的示例中，x和a都使用标准正态分布初始化，这512个乘积的均值为0，标准差为1。

这512个乘积的和的均值为0，方差为512，因此标准差为√512。

这就是为什么在上面的例子中，我们看到我们的层输出在29次连续矩阵乘法之后爆炸。在我们最基本的100层网络架构中，我们希望每个层的输出的标准偏差约为1。可以想象，这将允许我们在尽可能多的网络层上重复矩阵乘法，而不需要激活发生爆炸或消失。

如果我们首先对权重矩阵a进行缩放，将其随机选择的所有值除以√512，那么填充输出y中的一个元素的元素乘平均方差将只有1/√512。

这意味着矩阵y的标准差为1，其中包含输入x与权重a相乘生成的512个值中的每一个。让我们通过实验来证实这一点。

现在让我们重新运行我们的100层网络。和之前一样，我们首先从[-1,1]内部的标准正态分布中随机选择层权值，但这次我们将这些权值缩放1/√n，其中n是一层的网络输入连接数，在我们的示例中为512。

成功！我们的层输出既没有爆炸也没有消失，即使在100个层之后也是如此。

乍一看，这似乎是我们可以收工了，但现实世界的神经网络并不像我们第一个例子所显示的那么简单。为了简单起见，省略了激活函数。然而，在现实生活中我们永远不会这样做。这是由于这些非线性激活函数的位置在网络层的尾端，深层神经网络可以创造非常复杂的函数，近似的描述现实世界的现象，然后可以用来产生令人印象深刻的预测，如笔迹样本的分类。

Xavier初始化

直到几年前，大多数常用的激活函数都是关于给定值的对称函数，其范围渐进地接近于与这个中点正负一定距离的值。双曲正切函数和softsign函数就是这类激活函数的典型的例子。

在我们假设的100层网络的每一层之后添加一个双曲正切激活函数，然后看看当我们使用我们自己的权值初始化方案时发生了什么，其中层权值按1/√n.进行缩放。

第100层激活输出的标准差约为0.06。这当然是一个小的方面，但至少激活还没有完全消失！

现在回想起来，发现我们自己开发的权重初始化策略的过程似乎很直观，但你可能会惊讶地发现，就在2010年，这还不是初始化权重层的传统方法。

当Xavier Glorot Yoshua Bengio发表了具有里程碑意义的论文题为Understanding the difficulty of training deep feedforward neural networks，他们比较的“常用的启发式”实验的初始化权重从均匀分布，然后由1 /√n扩展。

事实证明，这种“标准”方法实际上并不那么有效。