梯度下降法及其Python实现

梯度下降法及其Python实现

基本介绍

梯度下降法(gradient descent),又名最速下降法(steepest descent)是求解无约束最优化问题最常用的方法,它是一种迭代方法,每一步主要的操作是求解目标函数的梯度向量,将当前位置的负梯度方向作为搜索方向。

梯度下降法特点:越接近目标值,步长越小,下降速度越慢。

下面将通过公式来说明梯度下降法。

建立模型为拟合函数h(θ) :

接下来的目标是将该函数通过样本的拟合出来,得到最佳的函数模型。因此构建损失函数J(θ)(目的是通过求解minJ(θ),得到在最优解下的θ向量),其中的每一项

都表示在已有的训练集上我们的拟合函数与 y之间的残差,计算其平方损失函数作为我们构建的风险函数(这里采用最小二乘法构造损失函数,在逻辑回归中也可采用最大似然估计构造损失函数从而估计参数)。

要使得最小J(θ),则对其J(θ)求导等于零。

在处理以下步骤时,可以用批量梯度下降算法(BGD)与随机梯度下降算法(SGD)。

批量梯度下降算法(BGD)

单个特征的迭代如下:

a为步长,如果太小,则找到函数最小值的速度就很慢,如果太大,则可能会错过最小值,而使得函数值发散。初始点不同,获得的最小值也不同,因此梯度下降求得的只是局部最小值。

多个特征的迭代如下:

Repeat until convergence{

(for every )

}

当上式收敛时则退出迭代,一开始设置一个具体参数,当前后两次迭代差值小于该参数时候结束迭代。

使用梯度下降法,越接近最小值时,下降速度越慢。计算批量梯度下降法时,计算每一个θ值都需要遍历计算所有样本,当数据量比较大时这是比较费时的计算。

随机梯度下降算法(SGD)

为解决数据量大的时批量梯度下降算法费时的困境。随机梯度下降算法,每次迭代只是考虑让该样本点的J(θ)趋向最小,而不管其他的样本点,这样算法会很快,但是收敛的过程会比较曲折,整体效果上,大多数时候它只能接近局部最优解,而无法真正达到局部最优解。该算法适合用于较大训练集的例子。

Loop{

}

改进的随机梯度下降算法

为了避免迭代时系数出现周期性波动,同时让系数很快收敛,这里改进随机梯度下降算法。

1)在每次迭代时,调整更新步长a的值。随着迭代的进行,a越来越小,这会缓解系数的高频波动。同时为了避免a随着迭代不断减小到接近于0,约束a一定大于一个稍微大点的常数项。

2)每次迭代,改变样本的优化顺序。也就是随机选择样本来更新回归系数。这样做可以减少周期性的波动,因为样本顺序的改变,使得每次迭代不再形成周期性。

算法应用和python实现

梯度下降法可以用于在前面提到的logistic回归分类器中,主要是求解模型中的cost函数,这里用泰坦尼克数据集进行演示,并且使用python中的sklearn库进行实现,代码如下:

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏书山有路勤为径

Convolutional Neural Networks

计算机视觉(Computer Vision)包含很多不同类别的问题,如图片分类、目标检测、图片风格迁移等等。

7410
来自专栏决胜机器学习

卷积神经网络(四) ——目标检测与YOLO算法

卷积神经网络(四) ——目标检测与YOLO算法 (原创内容,转载请注明来源,谢谢) 一、概述 目标检测,主要目的是在图片中,分类确认是否有需要的物体,如果有则标...

1.6K60
来自专栏人工智能LeadAI

CNN 之物体检测篇

RCNN Rich feature hierarchies for accurate object detection and semantic segment...

38070
来自专栏帮你学MatLab

工具函数

工具函数 显示对比结果 clc %% 不使用遗传算法 %% 使用随机权值和阈值 inputnum=size(P,1); % 输入层神经元个数 o...

30860
来自专栏xingoo, 一个梦想做发明家的程序员

吴恩达机器学习笔记 —— 10 神经网络参数的反向传播算法

神经网络可以理解为两个过程:信号的正向传播和误差的反向传播。在正向的传播过程中,计算方法为Sj=wijxi+bj,其中i是样本、j是层数。然后xj=f(Sj),...

10800
来自专栏机器学习算法与Python学习

卷积神经网络的最佳解释!

CNN由由可学习权重和偏置的神经元组成。每个神经元接收多个输入,对它们进行加权求和,将其传递给一个激活函数并用一个输出作为响应。整个网络有一个损失函数,在神经网...

12230
来自专栏ml

对sppnet网络的理解

   接着上一篇文章提到的RCNN网络物体检测,这个网络成功的引入了CNN卷积网络来进行特征提取,但是存在一个问题,就是对需要进行特征提取图片大小有严格的限制。...

16330
来自专栏深度学习思考者

机器学习——Dropout原理介绍

一:引言   因为在机器学习的一些模型中,如果模型的参数太多,而训练样本又太少的话,这样训练出来的模型很容易产生过拟合现象。在训练bp网络时经常遇到的一个问题,...

77880
来自专栏机器学习、深度学习

统计学习导论 Chapter4--Classification

Book: An Introduction to Statistical Learning with Appli...

21560
来自专栏机器人网

反卷积是什么?反卷积的作用

反卷积与卷积 反卷积,顾名思义是卷积操作的逆向操作。 为了方便理解,假设卷积前为图片,卷积后为图片的特征。 卷积,输入图片,输出图片的特征,理论依据是统计不变性...

32260

扫码关注云+社区

领取腾讯云代金券