Loading [MathJax]/jax/input/TeX/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >梯度下降算法中的偏导公式推导

梯度下降算法中的偏导公式推导

阿波张

发布于 2020-07-27 07:27:57

发布于 2020-07-27 07:27:57

1.9K0

举报

文章被收录于专栏：go语言核心编程技术go语言核心编程技术

前言：最近在跟着吴恩达老师(Andrew Ng)的视频课程学习机器学习，该视频是2014年拍的，虽然有点老，但理论却并不过时，是非常经典的机器学习入门教程，也正是因为这是入门教程，所以视频中的有些数学知识只给出了结论却未进行推导，这对于入门来说再适合不过了，但如果想深入学习机器学习理论和算法就得对那些数学公式的来龙去脉有比较清楚的认识。所以随着学习的深入，我不知道为什么的地方也越来越多，所以我决定先搞清楚视频中涉及到的那些未被推导的数学公式之后再继续学习后面的视频教程。在搞清楚那些数学知识的时候我会在纸上进行演算，但纸质介质对我来说并不利于长时间保存因而不利于备忘，于是决定把学习到的知识和心得组织成一系列文章发布在公众号上，一方面利于自己温故而知新，另一方面也希望这些文字对有同样疑惑的网友有那么一丁点儿用处。

本文是上述所说的系列文章的第一篇，主要对梯度下降算法中的偏导公式进行推导。梯度下降算法是我们在吴恩达老师的教程中遇到的第一个算法，算法中的对代价函数的求导也是我们需要自己推导的第一个数学结果。

我们先来看看梯度下降算法和其代价函数，下图是我从视频中截取出来的：

上图左边是梯度下降算法伪码，右边是h和J函数的定义。需要注意的是代价函数J的自变量是和，而不是x和y，x和y只是一些常量。

梯度算法的核心是反复迭代改变和的值直到代价函数J的值达到最小，这里关键是如何去求J的偏导数。

下面我们就尝试着来推导它。代入J可得

根据导函数的加法运算法则(f + g)' = f' + g'，也就是多个函数的和的导数等于各函数的导数的和，我们可得到

又根据复合函数的求导法则f'(g(x)) = f'(u)g'(x)，有

到此，余下部分的偏导就比较简单了，它是对一个二元一次函数的自变量求偏导，根据偏导的定义，对求偏导数时，我们把看作常数，对求偏导数时，我们把看作常数。于是有：

把上面两式分别带入（1）式可得：

至此推导完成，可以跟吴恩达老师给出的结果对比一下确认其正确性。

后记

通过这段时间的学习，发现数学对机器学习真的是太重要了，要不然只知道What而不知道Why。可惜的是上学时对数学一点都不感冒导致现在重新来学习。在寻找微积分教材的过程中发现了下面两本很不错的书，顺便推荐给大家。我看的是第一本，第二本评价也很高，但内容没有第一本全。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-03-05，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自源码游记微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

一篇文搞定消息队列选型

腾讯写码6年，我总结的技术人核心竞争力

醍醐灌顶！异地多活架构设计看这篇就够了

单体架构比微服务架构更落后吗？

万级TPS优惠券系统设计与实践

我独到的技术见解--大型前端项目的常见问题和解决方案

神经网络中梯度下降算法

编程算法线性回归

如果说在机器学习领域有哪个优化算法最广为认知，用途最广，非梯度下降算法莫属。梯度下降算法是一种非常经典的求极小值的算法，比如在线性回归里我们可以用最小二乘法去解析最优解，但是其中会涉及到对矩阵求逆，由于多重共线性问题的存在是很让人难受的，无论进行L1正则化的Lasso回归还是L2正则化的岭回归，其实并不让人满意，因为它们的产生是为了修复此漏洞，而不是为了提升模型效果，甚至使模型效果下降。但是换一种思路，比如用梯度下降算法去优化线性回归的损失函数，完全就可以不用考虑多重共线性带来的问题。

商业新知

2019/07/17

8280

机器学习系列 4：线性回归的梯度下降算法

编程算法线性回归机器学习神经网络深度学习

之前我们已经学过了线性回归、代价函数和梯度下降，但是他们就像一个人的胳膊和腿，只有组合在一起才会成为一个「完整的人」，这个「完整的人」就是一个机器学习算法，让我们一起来学习第一个机器学习算法吧。

SuperFeng

2019/09/26

4190

机器学习系列 4：线性回归的梯度下降算法

梯度下降求极值，机器学习&深度学习

人工智能监督学习函数机器学习深度学习

导数也叫导函数，或者微商，它是微积分中的重要基础概念，从物理学角度来看，导数是研究物体某一时刻的瞬时速度，比如你开车从家 8:00 出发到公司上班，9:00 到到达公司，这一个小时内的平均车速是 80km/h，而途中8:15:30这一时刻的速度，就被称为瞬时速度，此刻的速度可能是 100km/h，也可能是 20km/h。而从几何意义上来讲，你可以把它理解为该函数曲线在一点上的切线斜率。导数有其严格的数学定义，它巧妙的利用了极限的思想，也就是无限趋近于 0 的思想。设函数 y=f(x) 在点 x0 的某个邻域内有定义，当自变量 x 在 x0 处有增量 Δx，(x0+Δx）也在该邻域内时，相应地函数取得增量 Δy=f(x0+Δx)-f(x0)；如果 Δy 与 Δx 之比当 Δx→0 时极限存在，则称函数 y=f(x) 在点 x0 处可导，并称这个极限为函数 y=f(x) 在点 x0 处的导数记做：

zhangjiqun

2024/12/14

990

梯度下降求极值，机器学习&深度学习

吴恩达机器学习笔记10-10分钟理解梯度下降法

“Linear regression with one variable——Gradient descent”

讲编程的高老师

2020/08/14

8020

【重温经典】吴恩达机器学习课程学习笔记四：梯度下降

机器学习人工智能

【导读】前一段时间，专知内容组推出了春节充电系列：李宏毅2017机器学习课程学习笔记，反响热烈，由此可见，大家对人工智能、机器学习的系列课程非常感兴趣，近期，专知内容组推出吴恩达老师的机器学习课程笔记系列，重温机器学习经典课程，希望大家会喜欢。【重温经典】吴恩达机器学习课程学习笔记一：监督学习【重温经典】吴恩达机器学习课程学习笔记二：无监督学习（unsupervised learning）【重温经典】吴恩达机器学习课程学习笔记三：监督学习模型以及代价函数的介绍吴恩达机器学习课程系列视频链接： htt

WZEARW

2018/04/13

6680

【重温经典】吴恩达机器学习课程学习笔记四：梯度下降

吴恩达机器学习笔记12-梯度下降法用于线性模型

批量计算线性回归编程算法机器学习神经网络

Linear regression with one variable——Gradient descent for linear regression”

讲编程的高老师

2020/08/14

4960

机器学习（四）——梯度下降算法解释以及求解

人工智能机器学习

机器学习（四） ——梯度下降算法解释以及求解θ （原创内容，转载请注明来源，谢谢）（本文接机器学习（二）的内容）一、解释梯度算法梯度算法公式以及简化的代价函数图，如上图所示。 1）偏导数由上图可知，在a点，其偏导数小于，故θ减去小于的数，相当于加上一个数。另外，从图上可以看出，在a点不是最佳点，需要继续向右移动，即a需要增加。因此符合要求。对于在b点，可以同理得到需要减少的结果。 2）学习速率α α表示点移动向最小值点的速率，α取值需要注意。当值太大，每次移动的距离太长，可能导致在最小值点附

企鹅号小编

2018/01/19

5930

机器学习（四）——梯度下降算法解释以及求解

梯度下降（Gradient Descent）是在求解机器学习算法的模型参数（无约束优化问题）时，最常采用的方法之一代价函数提到梯度下降就不得不说一下代价函数。代价函数也被称作平方误差函数，有时也被

听城

2018/04/27

6920

[机器学习Lesson4]多元线性回归

机器学习线性回归编程算法

在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。因此多元线性回归比一元线性回归的实用意义更大。

mantou

2018/04/21

2K3

[机器学习Lesson4]多元线性回归

【重温经典】吴恩达机器学习课程学习笔记五：特征处理与多项式拟合

机器学习人工智能

【导读】前一段时间，专知内容组推出了春节充电系列：李宏毅2017机器学习课程学习笔记，反响热烈，由此可见，大家对人工智能、机器学习的系列课程非常感兴趣，近期，专知内容组推出吴恩达老师的机器学习课程笔记系列，重温机器学习经典课程，希望大家会喜欢。【重温经典】吴恩达机器学习课程学习笔记一：监督学习【重温经典】吴恩达机器学习课程学习笔记二：无监督学习（unsupervised learning）【重温经典】吴恩达机器学习课程学习笔记三：监督学习模型以及代价函数的介绍【重温经典】吴恩达机器学习课程学习笔记四

WZEARW

2018/04/13

6040

【重温经典】吴恩达机器学习课程学习笔记五：特征处理与多项式拟合

【重温经典】吴恩达机器学习课程学习笔记五：多元梯度下降

机器学习人工智能监督学习无监督学习

【导读】前一段时间，专知内容组推出了春节充电系列：李宏毅2017机器学习课程学习笔记，反响热烈，由此可见，大家对人工智能、机器学习的系列课程非常感兴趣，近期，专知内容组推出吴恩达老师的机器学习课程笔记系列，重温机器学习经典课程，希望大家会喜欢。【重温经典】吴恩达机器学习课程学习笔记一：监督学习【重温经典】吴恩达机器学习课程学习笔记二：无监督学习（unsupervised learning）【重温经典】吴恩达机器学习课程学习笔记三：监督学习模型以及代价函数的介绍【重温经典】吴恩达机器学习课程学习笔记四

WZEARW

2018/04/13

5820

【重温经典】吴恩达机器学习课程学习笔记五：多元梯度下降

吴恩达机器学习笔记11-深入浅出梯度下降法

gradient regression 笔记视频

“Linear regression with one variable——Gradient descent intiuition”

讲编程的高老师

2020/08/14

3530

深度学习教程 | 神经网络基础

本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整理所得，对应的课程视频可以在这里查看。

ShowMeAI

2022/04/14

1.1K0

深度学习教程 | 神经网络基础

机器学习之——梯度下降算法

机器学习人工智能编程算法

机器学习算法大都遵从同样的套路：设定需要学习的参数，通过最优化算法来最小（大）化学习目标，从而得到一组最好的待学习参数。例如，线性回归z=ax+by中，参数就是a和b，目标就是z和真值之间的差的平方，通过最小化这一目标，可以得到最优的a和b。因此，最优化算法在机器学习中扮演了重要角色，而梯度下降则是最为常用的一种最优化方法。梯度下降算法图示假定我们要找到使得函数J(θ)最小的θ，即计算下面问题要怎么做呢？由导数的知识我们知道，一个函数的导数表示当自变量增大时，函数值是变大还是变小。导数大于零

企鹅号小编

2018/01/11

1K0

【机器学习】浅谈正规方程法&梯度下降

机器学习神经网络深度学习人工智能线性回归

更加拟合数据，梯度下降的方法就是通过求代价函数最小得到最优参数或者局部最优参数的，

计算机魔术师

2022/08/23

1.5K0

【机器学习】浅谈正规方程法&梯度下降

【重温经典】吴恩达机器学习课程学习笔记十：正则化

【导读】前一段时间，专知内容组推出了春节充电系列：李宏毅2017机器学习课程学习笔记，反响热烈，由此可见，大家对人工智能、机器学习的系列课程非常感兴趣，近期，专知内容组推出吴恩达老师的机器学习课程笔记系列，重温机器学习经典课程，希望大家会喜欢。【重温经典】吴恩达机器学习课程学习笔记一：监督学习【重温经典】吴恩达机器学习课程学习笔记二：无监督学习（unsupervised learning）【重温经典】吴恩达机器学习课程学习笔记三：监督学习模型以及代价函数的介绍【重温经典】吴恩达机器学习课程学习笔记四

WZEARW

2018/06/05

4620

机器学习——神经网络代价函数、反向传播、梯度检验、随机初始化

机器学习人工智能神经网络深度学习

机器学习（十二） ——神经网络代价函数、反向传播、梯度检验、随机初始化（原创内容，转载请注明来源，谢谢）一、代价函数同其他算法一样，为了获得最优化的神经网络，也要定义代价函数。神经网络的输出的结果有两类，一类是只有和1，称为二分分类（Binary classification），另一种有多个结果，称为多分类。其中，多个结果时，表示方式和平时不太一样。例如，y的结果范围在0~5，则表示y=2，用的是矩阵y=[0 1 0 0 0]T来表示，如下图：代价函数可以类比logistic回归的代价函数，l

企鹅号小编

2018/02/07

1K0

机器学习——神经网络代价函数、反向传播、梯度检验、随机初始化

逻辑回归代价函数的简化及其对应的梯度下降法—ML Note37

“Logistic Regression——Simplified const function and gradient descent”。

讲编程的高老师

2020/08/25

5340

逻辑回归代价函数的简化及其对应的梯度下降法—ML Note37

Andrew Ng机器学习课程笔记（四）之神经网络

机器学习神经网络 http html 编程算法

http://www.cnblogs.com/fydeblog/p/7365730.html

努力努力再努力F

2018/09/11

5170

Andrew Ng机器学习课程笔记（四）之神经网络

最小二乘法原理（后）：梯度下降求权重参数

在上一篇推送中总结了用数学方法直接求解最小二乘项的权重参数，然而有时参数是无法直接求解的，此时我们就得借助梯度下降法，不断迭代直到收敛得到最终的权重参数。首先介绍什么是梯度下降，然后如何用它求解特征的权重参数，欢迎您的阅读学习。 1 梯度下降梯度是函数在某点处的一个方向，并且沿着该方向变化最快，变化率最大。沿着梯度这个方向，使得值变大的方向是梯度上升的方向，沿着使值变小的方向便是下降的方向。综上，梯度下降的方向就是在该点处使值变小最快的方向。 2 梯度下降求参数 2.1 求梯度在上个推送中我们得出了

double

2018/04/02

1.6K0

最小二乘法原理（后）：梯度下降求权重参数

相关推荐

神经网络中梯度下降算法

更多 >