梯度下降法及优化算法

Minerva

修改于 2020-05-31 10:40:17

1.2K0

修改于 2020-05-31 10:40:17

文章被收录于专栏：Python编程和深度学习 Python编程和深度学习Python编程和深度学习

梯度下降法及优化算法

内容目录

1 梯度下降法（Gradient Descent）1.1 批量梯度下降法（Batch Gradient Descent）1.2 随机梯度下降法（Stochastic Gradient Descent）1.3 mini-batch 梯度下降法（Mini-Batch Gradient Descent）1.4 存在的问题2 梯度下降优化算法2.1 Momentun动量梯度下降法2.2 Nesterov accelerated gradient（NAG）2.3 自适应学习率算法（Adagrad）2.4 均方根传递算法（Root Mean Square prop，RMSprop）2.5 自适应增量算法（Adadelta）2.6 适应性矩估计算法（Adam）

1 梯度下降法（Gradient Descent）

梯度下降法是最流行的优化算法，假设我们的目标函数为

，其梯度为

，梯度下降就是沿着目标函数梯度的反方向进行更新参数，不断最小化目标函数，学习速率决定了每次更新的步长。

1.1 批量梯度下降法（Batch Gradient Descent）

批量梯度下降法就是利用全部训练数据对目标函数进行优化，由于是每轮都要计算所有数据，如果整个数据集是500万或者5000万个，那么每次梯度下降都要计算这么多的数据，因此计算过程会很慢，而且比较占内存，但批量梯度下降可以收敛到盆地的极小值。

Python代码：

for i in range(nb_epochs):
    params_grad = evaluate_gradient(loss_function, data, params)
    Params = params - learning_rate * params_grad

1.2 随机梯度下降法（Stochastic Gradient Descent）

随机梯度下降法是以一个训练样本进行参数更新，可以避免批量梯度下降法在大数据集产生的冗余计算问题（每次梯度下降都要对相似的样本进行重复计算），随机梯度下降法更容易跳出局部最优但很可能会一直在局部最优之间，很难收敛到确切的极小值。

Python代码：

for i in range(nb_epochs):  
    np.random.shuffle(data)  
    for example in data:  
        params_grad = evaluate_gradient(loss_function, example, params)  
        params = params - learning_rate * params_grad

1.3 mini-batch 梯度下降法（Mini-Batch Gradient Descent）

Mini-batch梯度下降法利用小批量训练数据进行梯度更新，比如64、128、512、1000等，相对500万个数据里的mini部分，既可以减少参数更新的方差，又可以更加高效的计算小批量的梯度，注意通常训练神经网络都是采用mini-batch梯度下降法，也会称之为随机梯度下降（SGD）。

Python代码：

for i in range(nb_epochs):
    np.random.shuffle(data)
    for batch in get_batches(data, batch_sizes=50):
        params_grad = evaluate_gradient(loss_function, batch, params)
        Params = params - learning_rate * params_grad

1.4 存在的问题

但是即使采用更好的梯度下降算法，在实际模型训练中仍然会难以得到很好的模型表现，这就与学习率有关了，学习率太大时会导致在训练后期目标函数一直在最优解附近跳来跳去，难以得到极小值，学习率太小又会导致模型训练时间过长，学习率很小意味着模型需要不断摸索，走很多很多步才能到达极小值处。在实验中也会有一些方法不断调整学习率，如模拟退火按照预先定义好的调度算法或者当相邻的迭代中目标变化小于一个阈值时候减小学习速率。但是这些调度和阈值需要预先设置，无法对数据集特征进行自适应。同时对所有参数采用固定的学习率可能也有问题，特别是数据具有稀疏性的时候。