【Andrew Ng 机器学习】Week 1(二):代价函数和梯度下降

0x00 前言

本篇是第一周关于线性回归的代价函数和梯度下降算法的笔记。

0x01 模型和代价函数

一、模型表示

  • x^i:输入特征
  • y^i:输出结果,或者是想要预测的结果
  • (x^i , y^i):训练样本
  • h:代表学习算法的解决方案或函数,也称为假设(hypothesis)

要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得到一个假设h,然后将我们要预测的房屋的尺寸作为输入变量输入,预测出该房屋的交易价格作为y作为输出为结果。

那么线性回归的假设函数如下:

二、代价函数

代价函数(cost function)是用来衡量假设函数(hypothesis function )的准确度的。

直观上理解,代价函数越小,说明我们预测的结果和真实值越接近,因此最小化代价函数,就相当于最优化我们的模型。

如下是代价函数的表示,这个函数也叫均方误差函数,其中最前面的1/2m,是为了方便计算梯度下降。

以线性回归为例,我们训练模型,就是选择合适的参数值theta,使得h最小。如下图是当theta1=0.5时,假设函数h和代价函数的关系:

当theta1=1,是模型效果最好的取值,此时所有的预测值和真实值都相同,即代价函数值最小。

如下,是不同theta1取值,代价函数的变化:

当我们从单个 theta1 变量变为两个变量theta0和theta1时,代价函数J(theta0, theta1) 就变成下图所示,三维空间中的最小值,即theta0 和theta1的最佳取值。

0x02 梯度下降(Gradient Descent)

一、基本概念

我们有了假设函数h(x),也有了刻画模型训练好坏的代价函数J(theta0, theta1) ,那么该如何找到最优的参数使得J(theta0, theta1) 最小?梯度下降来了。

梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数J(theta0, theta1)的最小值。

梯度下降背后的思想是:开始时我们随机选择一个参数的组合,计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。持续这么做直到到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。

二、求解

梯度下降(gradient descent)算法的公式为:

其中是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。

计算方式图左侧的方式,右侧错误。更新的时候,需要对theta0和theta1同时更新。

三、学习速率

在梯度下降算法中,有一个学习速率alpha,它的大小取值对算法的影响如下:

如果alpha太小了,即我的学习速率太小,结果就是只能这样像小宝宝一样一点点地挪动,去努力接近最低点,这样就需要很多步才能到达最低点,所以如果太小的话,可能会很慢。

如果alpha太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到你发现实际上离最低点越来越远,所以,如果太大,它会导致无法收敛,甚至发散。

0xFF 总结

NG很贴心,专门补一下线代。

第一章的Cost Function和Gradient Descent主要以单变量线性回归为基础讲解的。后续每章都逐渐引入复杂的模型。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Bingo的深度学习杂货店

一文理解机器学习中的各种熵

自信息公式 事件的不确定性越大(概率 pi 越小),自信息 I(pi) 越大。 比如买彩票,中彩票的自信息大,而不中彩票的自信息小。

682
来自专栏Echo is learning

Gradient Descent

1293
来自专栏机器学习算法全栈工程师

梯度提升树(GBDT)原理小结

地址:https://www.cnblogs.com/pinard/p/6140514.html

1152
来自专栏人工智能

从损失函数的角度详解常见机器学习算法(1)

作者:章华燕 编辑:赵一帆 1、机器学习中常见的损失函数 一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,...

96813
来自专栏机器学习算法原理与实践

梯度提升树(GBDT)原理小结

    在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度...

665
来自专栏数据科学与人工智能

【算法】GBDT算法

小编邀请您,先思考: 1 GBDT算法的原理是什么? 2 GBDT算法如何做正则化处理? 本文对Boosting家族中另一个重要的算法梯度提升树(Gradien...

3568
来自专栏专知

深入广义线性模型:分类和回归

【导读】本文来自AI科学家Semih Akbayrak的一篇博文,文章主要讨论了广义的线性模型,包括:监督学习中的分类和回归两类问题。虽然关于该类问题的介绍文章...

3956
来自专栏机器学习算法全栈工程师

从损失函数的角度详解常见机器学习算法(1)

作者:章华燕 编辑:赵一帆 1、机器学习中常见的损失函数 一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,...

3726
来自专栏机器学习算法全栈工程师

从损失函数的角度详解常见机器学习算法(2)

作者:章华燕 小编:赵一帆 逻辑回归详解 分类是监督学习的一个核心问题,在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。这时,输入变量X可以...

3676
来自专栏数据科学与人工智能

代价函数

代价函数,度量【假设集】的准确性。 机器学习中常用的代价函数,总结如下: 1 误差平方和函数 ? 说明:yi 是模型预测值,oi是样本实际值 2 交叉熵函数...

3326

扫码关注云+社区