使用Batch gradient descent，随着迭代次数增加，cost是不断减小的。
使用Mini-batch gradient descent，随着在不同的mini-batch上迭代训练，cost并不是单调下降，而是振荡下降的，最终也能得到较低的cost值。出现细微振荡的原因是不同的mini-batch之间是有差异的。例如可能第一个子集(X^{\{1\}},Y^{\{1\}})是好的子集，而第二个子集(X^{\{2\}},Y^{\{2\}})包含了一些噪声noise。出现细微振荡是正常的。

2.1 Batch大小及影响

我们在训练神经网络的时候，使用mini-batch gradient descent，经常要指定一个batch批次的样本数量。而不同的batch大小会影响训练的过程，其中有2个特例，mini-batch gradient descent会退化为不同的算法：

Mini-Batch的大小为1，即是随机梯度下降法(stochastic gradient descent)，每个样本都是独立的Mini-Batch。
Mini-Batch的大小为m(数据集大小)，即是Batch梯度下降法。

Batch vs Mini-Batch 梯度下降法

如上图，我们对比一下Batch gradient descent和Stachastic gradient descent的梯度下降曲线。

图中蓝色的线代表Batch gradient descent。Batch gradient descent会比较平稳地接近全局最小值，但是因为使用了所有m个样本，每次前进的速度有些慢。
图中紫色的线代表Stochastic gradient descent。Stochastic gradient descent每次前进速度很快，但是路线曲折，有较大的振荡，最终会在最小值附近来回波动，难以真正达到最小值处。而且在数值处理上就不能使用向量化的方法来提高运算速度。

(1) Batch梯度下降法（Batch gradient descent）

对所有 m 个训练样本执行一次梯度下降，每一次迭代时间较长，训练过程慢。
相对噪声低一些，幅度也大一些。
成本函数总是向减小的方向下降。

(2) 随机梯度下降法（Stochastic gradient descent）

对每一个训练样本执行一次梯度下降，训练速度快，但丢失了向量化带来的计算加速。
有很多噪声，减小学习率可以适当。
成本函数总体趋势向全局最小值靠近，但永远不会收敛，而是一直在最小值附近波动。

(3) Mini-Batch gradient descent

实际使用中，batch size不能设置得太大（会倾向于Batch gradient descent），也不能设置得太小（倾向于Stochastic gradient descent）。

选择一个1<size<m的合适的大小进行Mini-Batch梯度下降，可以实现快速学习，也应用了向量化带来的好处，且成本函数的下降处于前两者之间。

Batch vs Mini-Batch 梯度下降法

mini-batch gradient descent的梯度下降曲线如图绿色曲线所示，每次前进速度较快，且振荡较小，基本能接近全局最小值。

2.2 Batch大小的选择

吴恩达老师也给出了一些关于batch大小选择的经验：

训练样本量小（如m \le 2000），选择Batch梯度下降法。
训练样本量大，选择Mini-Batch梯度下降法。
与计算机的信息存储方式相适应，代码在Batch大小为2的幂次时运行要快一些，典型的大小为2^6、2^7、…、2^9。
Batch的大小要匹配CPU/GPU内存。

Batch vs Mini-Batch 梯度下降法

Batch的大小是重要的超参数，需要根据经验快速尝试，找到能够最有效地减少成本函数的值。

2.3 获得Mini-Batch的步骤

前面提到了batch大小的选择方法，当我们确定batch大小后，在应用mini-batch梯度下降算法时，可以通过以下方式获得1个Batch的数据：

将数据集打乱
按照既定的大小分割数据集

其中打乱数据集的代码：

Mini-Batch梯度下降法

# 获得样本数量
m = X.shape[1] 
# 对m个样本进行乱序
permutation = list(np.random.permutation(m))
# 取出洗牌之后的样本特征和标签
shuffled_X = X[:, permutation]
shuffled_Y = Y[:, permutation].reshape((1,m))

（上述python代码使用到numpy工具库，想了解更多的同学可以查看ShowMeAI的 图解数据分析 系列中的numpy教程，也可以通过ShowMeAI制作的 numpy速查手册 快速了解其使用方法）

代码解读：

np.random.permutation与np.random.shuffle有两处不同：

如果传给permutation一个矩阵，它会返回一个洗牌后的矩阵副本；而shuffle只是对一个矩阵进行洗牌，没有返回值。
如果传入一个整数，它会返回一个洗牌后的arange。

2.4 符号表示

在进一步讲解优化算法之前，我们来对数学标记做一个统一和说明：

我们使用小括号上标i表示训练集里的值，x^{(i)}是第i个训练样本。
我们使用中括号上标l表示神经网络的层数，z^{[l]}表示神经网络中第l层的z值。
我们使用上标t来代表不同的Batch数据，即X^{t}、Y^{t}。

3.指数加权平均

指数加权平均 Exponentially Weighted Averages

下面我们将介绍指数加权平均（Exponentially weighted averages）的概念。

举个例子，记录半年内伦敦市的气温变化，并在二维平面上绘制出来，如下图所示：

指数加权平均数

看上去，温度数据似乎有noise，而且抖动较大。如果我们希望看到半年内气温的整体变化趋势，可以通过「移动平均」（moving average）的方法来对每天气温进行平滑处理。

例如我们可以设V_0=0，当成第0天的气温值。

第一天的气温与第0天的气温有关：

V_1=0.9V_0+0.1\theta_1

第二天的气温与第一天的气温有关：

\begin{aligned} V_2 =0.9V_1+0.1\theta_2\ =0.9(0.9V_0+0.1\theta_1)+0.1\theta_2\ =0.9^2V_0+0.9\cdot0.1\theta_1+0.1\theta_2 \end{aligned}

第三天的气温与第二天的气温有关：

\begin{aligned} V_3 = 0.9V_2+0.1\theta_3\ = 0.9(0.9^2V_0+0.9\cdot0.1\theta_1+0.1\theta_2)+0.1\theta_3\ = 0.9^3V_0+0.9^2\cdot 0.1\theta_1+0.9\cdot 0.1\theta_2+0.1\theta_3 \end{aligned}

即第t天与第t-1天的气温迭代关系为：

指数加权平均数

经过「移动平均」（moving average）处理得到的气温如下图红色曲线所示：

指数加权平均数

这种滑动平均算法称为指数加权平均（exponentially weighted average）。根据前面的例子，我们可以看到它的推导公式一般形式为：V_t=\beta V_{t-1}+(1-\beta)\theta_t。

其中指数加权平均的天数由\beta值决定，近似表示为\frac{1}{1-\beta}。上面的例子中：

当\beta=0.9，则\frac{1}{1-\beta}=10，表示将前10天进行指数加权平均。
当\beta=0.98，则\frac{1}{1-\beta}=50，表示将前50天进行指数加权平均。

指数加权平均数

\beta值越大，则指数加权平均的天数越多，平均后的趋势线就越平缓，但是同时也会向右平移。上图中绿色曲线和橙色曲线分别表示了\beta=0.98和\beta=0.5时，指数加权平均的结果。

公式解释：这里的\frac{1}{1-\beta}是怎么来的呢？就标准数学公式来说，指数加权平均算法跟之前所有天的数值都有关系。但是指数是衰减的，一般认为衰减到\frac1e就可以忽略不计了。因此，根据之前的推导公式，我们只要证明\beta^{\frac{1}{1-\beta}}=\frac1e就好了。令\frac{1}{1-\beta}=N，N>0，则\beta=1-\frac{1}{N}，\frac1N<1。即证明转化为 (1-\frac1N)^N=\frac1e显然，当N>>0时，上述等式是近似成立的。这就简单解释了为什么指数加权平均的天数的计算公式为\frac{1}{1-\beta}。

综上，指数加权平均(Exponentially Weight Average)是一种常用的序列数据处理方式，计算公式为：

S_t = \begin{cases} Y_1, &t = 1 \\ \beta S_{t-1} + (1-\beta)Y_t, &t > 1 \end{cases}

其中Y_t为t下的实际值，S_t为t下加权平均后的值，\beta为权重值。

指数加权平均数在统计学中被称为“指数加权移动平均值”。

3.1 理解指数平均加权

理解指数加权平均 Understanding Exponentially Weighted Averages

我们将指数加权平均公式的一般形式写下来：

\begin{aligned} V_t &=\beta V_{t-1}+(1-\beta)\theta_t\\ & =(1-\beta)\theta_t+(1-\beta)\cdot\beta\cdot\theta_{t-1}+(1-\beta)\cdot \beta^2\cdot\theta_{t-2}+\cdots+(1-\beta)\cdot \beta^{t-1}\cdot \theta_1+\beta^t\cdot V_0 \end{aligned}

观察上述推导得到的计算公式，其中：

\theta_t,\theta_{t-1},\theta_{t-2},...,\theta_1是原始数据值。
(1-\beta),(1-\beta)\beta,(1-\beta)\beta^2,...,(1-\beta)\beta^{t-1}是类似指数曲线，从右向左，呈指数下降的。

如果我们把每个时间点的\theta和衰减指数写成向量形式，则最终指数加权平均结果V_t相当于两者的点乘。将原始数据值与衰减指数点乘，相当于做了指数衰减，随距离越远衰减越厉害（注意到\beta小于1），有如下结论：

离得越近的数据点，影响越大，离得越远的数据点，影响越小。

指数加权平均数

当\beta = 0.9时，

v_{100} = 0.9v_{99} + 0.1 \theta_{100}

v_{99} = 0.9v_{98} + 0.1 \theta_{99}

v_{98} = 0.9v_{97} + 0.1 \theta_{98}

展开：

v_{100} = 0.1 \theta_{100} + 0.1 * 0.9 \theta_{99} + 0.1 * {(0.9)}^2 \theta_{98} + \dots

其中，\theta_i指第i天的实际数据。所有\theta前面的系数(不包括0.1)相加起来为1或者接近于1，这些系数被称作偏差修正(Bias Correction)。

根据函数极限的一条定理：

{\lim_{\beta\to 0}}(1 - \beta)^{\frac{1}{\beta}} = \frac{1}{e} \approx 0.368

当\beta = 0.9时，可以当作把过去10天的气温指数加权平均作为当日的气温，因为10天后权重已经下降到了当天的1/3左右。同理，当\beta = 0.98时，可以把过去50天的气温指数加权平均作为当日的气温。

因此，在计算当前时刻的平均值时，只需要前一天的平均值和当前时刻的值。

v_t = \beta v_{t-1} + (1 - \beta)\theta_t

在实际代码中，只需要不断迭代赋值更新v即可：

v := \beta v + (1 - \beta)\theta_t

指数平均加权并不是最精准的计算平均数的方法，你可以直接计算过去10天或50天的平均值来得到更好的估计，但缺点是保存数据需要占用更多内存，执行更加复杂，计算成本更加高昂。

指数加权平均数公式的好处之一在于它只需要一行代码，且占用极少内存，因此效率极高，且节省成本。

3.2 指数平均加权的偏差修正

指数加权平均的偏差修正 Bias Correction in Exponentially Weighted Averages

当\beta=0.98时，前面提到的气温示例，指数加权平均结果如绿色曲线。但实际上真实曲线如紫色曲线所示：

指数加权平均数

紫色曲线与绿色曲线的区别是，紫色曲线开始的时候相对较低一些。因为开始时设置v_0 = 0，所以初始值会相对小一些，直到后面受前面的影响渐渐变小，趋于正常。

修正这种问题的方法是进行偏移校正（bias correction），即在每次计算完v_t后，对v_t进行下式处理：

{V_t}=\frac{V_t}{1-\beta^t}

换算到迭代公式中，即有v_t = \frac{\beta v_{t-1} + (1 - \beta)\theta_t}{{1-\beta^t}}。

观察上式：随着t的增大，\beta的t次方趋近于0。因此当t很大的时候，偏差修正几乎没有作用，但是在前期学习可以帮助更好的预测数据。

4.动量梯度下降法

Momentum梯度下降 Gradient Descent with Momentum

4.1 从指数加权平均到动量梯度下降

大家已经了解了指数加权平均，现在我们回到神经网络优化算法，介绍一下动量梯度下降算法，其速度要比传统的梯度下降算法快很多。做法是在每次训练时，计算梯度的指数加权平均数，并利用该值来更新权重W和常数项b。

具体过程为：for l = 1, .. , L

v_{dW^{[l]}} = \beta v_{dW^{[l]}} + (1 - \beta) dW^{[l]}

v_{db^{[l]}} = \beta v_{db^{[l]}} + (1 - \beta) db^{[l]}

W^{[l]} := W^{[l]} - \alpha v_{dW^{[l]}}

b^{[l]} := b^{[l]} - \alpha v_{db^{[l]}}

其中，将动量衰减参数\beta设置为0.9是超参数的一个常见且效果不错的选择。当\beta被设置为0时，显然就成了Batch梯度下降法。

4.2 梯度下降 vs 动量梯度下降

我们用下图来对比一下优化算法的优化过程

动量梯度下降法

图中：

蓝色曲线：使用一般的梯度下降的优化过程，由于存在上下波动，减缓了梯度下降的速度，因此只能使用一个较小的学习率进行迭代。
紫色曲线：使用一般梯度下降+较大的学习率，结果可能偏离函数的范围。
红色曲线：使用动量梯度下降，通过累加过去的梯度值来减少抵达最小值路径上的波动，加速了收敛，因此在横轴方向下降得更快。

当前后梯度方向一致时，动量梯度下降能够加速学习；而前后梯度方向不一致时，动量梯度下降能够抑制震荡。

另外，在10次迭代之后，移动平均已经不再是一个具有偏差的预测。因此实际在使用梯度下降法或者动量梯度下降法时，不会同时进行偏差修正。

补充：在其它文献资料中，动量梯度下降还有另外一种写法：V_{dW}=\beta V_{dW}+dW$``$V_{db}=\beta V_{db}+db即消去了dW和db前的系数(1-\beta)。这样简化了表达式，但是学习因子\alpha相当于变成了\frac{\alpha}{1-\beta}，表示\alpha也受\beta的影响。从效果上来说，这种写法也是可以的，但是不够直观，且调参涉及到\alpha，不够方便。所以，实际应用中，推荐第一种动量梯度下降的表达式。

动量梯度下降法的形象解释

将成本函数想象为一个碗状，从顶部开始运动的小球向下滚，其中dw，db想象成球的加速度；而v_{dw}、v_{db}相当于速度。

小球在向下滚动的过程中，因为加速度的存在速度会变快，但是由于\beta的存在，其值小于1，可以认为是摩擦力，所以球不会无限加速下去。

动量梯度下降法

5.RMSProp 算法

RMSprop—— Root Mean Square Prop

RMSProp(Root Mean Square Propagation，均方根传播)是另外一种优化梯度下降速度的算法，它在对梯度进行指数加权平均的基础上，引入平方和平方根。具体过程为(省略了l)：

s_{dw} = \beta s_{dw} + (1 - \beta)(dw)^2

s_{db} = \beta s_{db} + (1 - \beta)(db)^2

w := w - \alpha \frac{dw}{\sqrt{s_{dw} + \epsilon}}

b := b - \alpha \frac{db}{\sqrt{s_{db} + \epsilon}}

其中，\varepsilon是一个实际操作时加上的较小数(例如10^{-8})，为了防止分母太小而导致的数值不稳定。

RMSProp算法

如图所示，蓝色轨迹代表初始的移动，可以看到在b方向上走得比较陡峭(即db较大)，相比起来dw较小，这影响了优化速度。

因此，在采用RMSProp算法后，由于(dw)^2较小、(db)^2较大，进而s_{dw}也会较小、s_{db}也会较大，最终使得\frac{dw}{\sqrt{s_{dw} + \varepsilon}}较大，而\frac{db}{\sqrt{s_{db} + \varepsilon}}较小。后面的更新就会像绿色轨迹一样，明显好于蓝色的更新曲线。RMSProp减小某些维度梯度更新波动较大的情况，使下降速度变得更快。

RMSProp有助于减少抵达最小值路径上的摆动，并允许使用一个更大的学习率\alpha，从而加快算法学习速度。并且，它和Adam优化算法已被证明适用于不同的深度学习网络结构。

注意，\beta也是一个超参数。

对比原始梯度下降与RMSProp算法优化过程，如下图所示（上方为原始梯度下降，下方为RMSProp）

RMSProp算法

6.Adam 优化算法

Adam优化算法 Adam Optimization Algorithm

6.1 Adam算法介绍

Adam (Adaptive Moment Estimation，自适应矩估计)算法结合了动量梯度下降算法和RMSprop算法，通常有超越二者单独时的效果。具体过程如下(省略了l)：

首先进行初始化：

v_{dW} = 0, s_{dW} = 0, v_{db} = 0, s_{db} = 0

用每一个Mini-Batch计算dW、db，第t次迭代时：

v_{dW} = \beta_1 v_{dW} + (1 - \beta_1) dW

v_{db} = \beta_1 v_{db} + (1 - \beta_1) db

s_{dW} = \beta_2 s_{dW} + (1 - \beta_2) {(dW)}^2

s_{db} = \beta_2 s_{db} + (1 - \beta_2) {(db)}^2

一般使用Adam算法时需要计算偏差修正：

v^{corrected}_{dW} = \frac{v_{dW}}{1-{\beta_1}^t}

v^{corrected}_{db} = \frac{v_{db}}{1-{\beta_1}^t}

s^{corrected}_{dW} = \frac{s_{dW}}{1-{\beta_2}^t}

s^{corrected}_{db} = \frac{s_{db}}{1-{\beta_2}^t}

所以，更新W、b时有：

W := W - \alpha \frac{v^{corrected}_{dW}}{{\sqrt{s^{corrected}_{dW}} + \varepsilon}}

b := b - \alpha \frac{v^{corrected}_{db}}{{\sqrt{s^{corrected}_{db}} + \varepsilon}}

6.2 Adam超参数的选择

Adam优化算法有很多的超参数，其中

学习率\alpha：需要尝试一系列的值，来寻找比较合适的
\beta_1：常用的缺省值为0.9
\beta_2：Adam算法的作者建议为0.999
\varepsilon：不重要，不会影响算法表现，Adam算法的作者建议为10^{-8}

\beta_1、\beta_2、\varepsilon通常不需要调试。

对比原始梯度下降与RMSProp算法优化过程，如下图所示（上方为原始梯度下降，下方为Adam）

Adam优化算法

7.学习率衰减

学习率衰减 Learning Rate Decay

减小学习率\alpha也能有效提高神经网络训练速度，这种方法被称为学习率衰减法（learning rate decay）。

学习率衰减就是随着迭代次数增加，学习率\alpha逐渐减小。如下图示例。

学习率衰减

① 蓝色折线表示设置一个固定的学习率\alpha

在最小值点附近，由于不同的Batch中存在一定的噪声，因此不会精确收敛，而是始终在最小值周围一个较大的范围内波动。

② 绿色折线表示随着时间慢慢减少学习率\alpha的大小

在初期\alpha较大时，下降的步长较大，能以较快的速度进行梯度下降；
后期逐步减小\alpha的值，即减小步长，有助于算法的收敛，更容易接近最优解。

最常用的学习率衰减方法：

\alpha = \frac{1}{1 + decay\_rate \ast epoch\_num} \ast \alpha_0

其中，decay_rate为衰减率(超参数)，epoch_num为将所有的训练样本完整过一遍的次数。

指数衰减：\alpha = 0.95^{epoch\_num} \ast \alpha_0
其他：\alpha = \frac{k}{\sqrt{epoch\_num}} \ast \alpha_0
离散下降

对于较小的模型，也有人会在训练时根据进度手动调小学习率。

8.局部最优问题

局部最优问题 the Problem of Local Optima

在使用梯度下降算法不断减小cost function时，可能会得到局部最优解（local optima）而不是全局最优解（global optima）。

局部最优问题

之前我们对局部最优解的理解是形如碗状的凹槽，如图左边所示。但是在神经网络中，local optima的概念发生了变化。准确来说，大部分梯度为零的“最优点”并不是这些凹槽处，而是形如右边所示的马鞍状，称为saddle point。

所以在深度学习损失函数中，梯度为零并不能保证都是convex（极小值），也有可能是concave（极大值）。特别是在神经网络中参数很多的情况下，所有参数梯度为零的点很可能都是右边所示的马鞍状的saddle point，而不是左边那样的local optimum。

局部最优问题

类似马鞍状的plateaus会降低神经网络学习速度。Plateaus是梯度接近于零的平缓区域，如图所示。在plateaus上梯度很小，前进缓慢，到达saddle point需要很长时间。到达saddle point后，由于随机扰动，梯度一般能够沿着图中绿色箭头，离开saddle point，继续前进，只是在plateaus上花费了太多时间。

结论：

在训练较大的神经网络、存在大量参数，并且成本函数被定义在较高的维度空间时，困在极差的局部最优中是不大可能的；
鞍点附近的平稳段会使得学习非常缓慢，而这也是动量梯度下降法、RMSProp以及Adam优化算法能够加速学习的原因，它们能帮助尽早走出平稳段。

深度学习教程 ◉ 吴恩达专项课程最全笔记

深度学习教程 | 神经网络优化算法

引言

1.Batch梯度下降法

2.Mini-Batch梯度下降法

2.1 Batch大小及影响

(1) Batch梯度下降法（Batch gradient descent）

(2) 随机梯度下降法（Stochastic gradient descent）

(3) Mini-Batch gradient descent

2.2 Batch大小的选择

2.3 获得Mini-Batch的步骤

2.4 符号表示

3.指数加权平均

3.1 理解指数平均加权

3.2 指数平均加权的偏差修正

4.动量梯度下降法

4.1 从指数加权平均到动量梯度下降

4.2 梯度下降 vs 动量梯度下降

动量梯度下降法的形象解释

5.RMSProp 算法

6.Adam 优化算法

6.1 Adam算法介绍

6.2 Adam超参数的选择

7.学习率衰减

8.局部最优问题

参考资料

ShowMeAI系列教程推荐

推荐文章

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐