梯度下降法快速教程 | 第一章:Python简易实现以及对学习率的探讨

前言

梯度下降法(Gradient Descent)是机器学习中最常用的优化方法之一,常用来求解目标函数的极值。

其基本原理非常简单:沿着目标函数梯度下降的方向搜索极小值(也可以沿着梯度上升的方向搜索极大值)。

但是如何调整搜索的步长(也叫学习率,Learning Rate)、如何加快收敛速度以及如何防止搜索时发生震荡却是一门值得深究的学问。接下来本文将分析第一个问题:学习率的大小对搜索过程的影响。全部源代码可在本人的GitHub:monitor1379(https://github.com/monitor1379/jianshu_blog/blob/master/scripts/gradient_descent_with_momentum_and_decay.py)中下载。

快速教程

前言啰嗦完了,接下来直接上干货:如何编写梯度下降法。代码运行环境为Python 2.7.11 + NumPy 1.11.0 + Matplotlib 1.5.1。

首先先假设现在我们需要求解目标函数func(x) = x * x的极小值,由于func是一个凸函数,因此它唯一的极小值同时也是它的最小值,其一阶导函数 为dfunc(x) = 2 * x。

import numpy as np
import matplotlib.pyplot as plt
# 目标函数:y=x^2
def func(x): return np.square(x)
# 目标函数一阶导数:dy/dx=2*x
def dfunc(x): return 2 * x

接下来编写梯度下降法函数:

# Gradient Descentdef GD(x_start, df, epochs, lr): """ 梯度下降法。给定起始点与目标函数的一阶导函数,求在epochs次迭代中x的更新值 :param x_start: x的起始点 :param df: 目标函数的一阶导函数 :param epochs: 迭代周期 :param lr: 学习率 :return: x在每次迭代后的位置(包括起始点),长度为epochs+1 """ xs = np.zeros(epochs+1) x = x_start xs[0] = x for i in range(epochs): dx = df(x) # v表示x要改变的幅度 v = - dx * lr x += v xs[i+1] = x return xs

需要注意的是参数df是一个函数指针,即需要传进我们的目标函数一阶导函数。

测试代码如下,假设起始搜索点为-5,迭代周期为5,学习率为0.3:

def demo0_GD():    
x_start = -5    
epochs = 5    
lr = 0.3    
x = GD(x_start, dfunc, epochs, lr=lr)    
print x    
# 输出:[-5.     -2.     -0.8    -0.32   -0.128  -0.0512]

继续修改一下demo0_GD函数以更加直观地查看梯度下降法的搜索过程:

def demo0_GD():     
"""演示如何使用梯度下降法GD()"""     
line_x = np.linspace(-5, 5, 100)    
 line_y = func(line_x)     
x_start = -5     
epochs = 5     
lr = 0.3     
x = GD(x_start, dfunc, epochs, lr=lr)     
color = 'r'     
plt.plot(line_x, line_y, c='b')     
plt.plot(x, func(x), c=color, label='lr={}'.format(lr))     
plt.scatter(x, func(x), c=color, )     
plt.legend()
plt.show()

从运行结果来看,当学习率为0.3的时候,迭代5个周期似乎便能得到蛮不错的结果了。

demo0_GD运行结果

梯度下降法确实是求解非线性方程极值的利器之一,但是如果学习率没有调整好的话会发生什么样的事情呢?

学习率对梯度下降法的影响

在上节代码的基础上编写新的测试代码demo1_GD_lr,设置学习率分别为0.1、0.3与0.9:

def demo1_GD_lr():     
# 函数图像    
 line_x = np.linspace(-5, 5, 100)     
line_y = func(line_x)     
plt.figure('Gradient Desent: Learning Rate')      
x_start = -5     
epochs = 5      
lr = [0.1, 0.3, 0.9]      
color = ['r', 'g', 'y']     
size = np.ones(epochs+1) * 10     
size[-1] = 70     
for i in range(len(lr)):         
x = GD(x_start, dfunc, epochs, lr=lr[i])         
plt.subplot(1, 3, i+1)         
plt.plot(line_x, line_y, c='b')         
plt.plot(x, func(x), c=color[i], label='lr={}'.format(lr[i]))         
plt.scatter(x, func(x), c=color[i])         
plt.legend()
plt.show()

从下图输出结果可以看出两点,在迭代周期不变的情况下:

  • 学习率较小时,收敛到正确结果的速度较慢。
  • 学习率较大时,容易在搜索过程中发生震荡。

综上可以发现,学习率大小对梯度下降法的搜索过程起着非常大的影响,为了解决上述的两个问题,接下来的博客《【梯度下降法】二:冲量(momentum)的原理与Python实现》将讲解冲量(momentum)参数是如何在梯度下降法中起到加速收敛与减少震荡的作用。

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-11-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人人都是极客

三天速成 TensorFlow课件分享

这是一套香港科技大学发布的极简 TensorFlow 入门教程,三天全套幻灯片教程已被分享到 Google Drive。机器之心将简要介绍该教程并借此梳理 Te...

3619
来自专栏机器之心

三天速成!香港科技大学TensorFlow课件分享

机器之心整理 参与:蒋思源 这是一套香港科技大学发布的极简 TensorFlow 入门教程,三天全套幻灯片教程已被分享到 Google Drive。机器之心将简...

40212
来自专栏人工智能LeadAI

TensorFlow从0到1 | 第十一章 74行Python实现手写体数字识别

到目前为止,我们已经研究了梯度下降算法、人工神经网络以及反向传播算法,他们各自肩负重任: 梯度下降算法:机器自学习的算法框架; 人工神经网络:“万能函数”的形式...

37613
来自专栏杨熹的专栏

一个隐马尔科夫模型的应用实例:中文分词

什么问题用HMM解决 现实生活中有这样一类随机现象,在已知现在情况的条件下,未来时刻的情况只与现在有关,而与遥远的过去并无直接关系。 比如天气预测,如果我们知道...

3466
来自专栏磐创AI技术团队的专栏

粒子群优化算法(PSO)之基于离散化的特征选择(FS)(四)

1352
来自专栏机器学习算法与Python学习

干货|多重预训练视觉模型的迁移学习

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 源 | 全球人工智能 本文介绍的是基...

4197
来自专栏人工智能

机器学习(四)——梯度下降算法解释以及求解

机器学习(四) ——梯度下降算法解释以及求解θ (原创内容,转载请注明来源,谢谢) (本文接机器学习(二)的内容) 一、解释梯度算法 ? 梯度算法公式以及简化的...

1945
来自专栏AI科技评论

开发 | 模型表现不好怎么办?37条妙计助你扭转局势

AI 科技评论按:读论文,看别人的模型的时候仿佛一切都顺利成章,可是等到自己训练模型的时候,麻烦一个接一个…… AI 科技评论找到了一篇国外大神 Slav Iv...

3206
来自专栏决胜机器学习

机器学习(四) ——梯度下降算法解释以及求解θ

机器学习(四)——梯度下降算法解释以及求解θ (原创内容,转载请注明来源,谢谢) (本文接 机器学习(二) 的内容) 一、解释梯度算法 ? ? 梯度算法公式...

3086
来自专栏深度学习

循环神经网络

循环神经网络的神经网络体系结构,它针对的不是自然语言数据,而是处理连续的时间数据,如股票市场价格。在本文结束之时,你将能够对时间序列数据中的模式进行建模,以对未...

3708

扫描关注云+社区