0x00 前言
本篇是第一周关于线性回归的代价函数和梯度下降算法的笔记。
0x01 模型和代价函数
一、模型表示
x^i:输入特征
y^i:输出结果,或者是想要预测的结果
(x^i , y^i):训练样本
h:代表学习算法的解决方案或函数,也称为假设(hypothesis)
要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得到一个假设h,然后将我们要预测的房屋的尺寸作为输入变量输入,预测出该房屋的交易价格作为y作为输出为结果。
那么线性回归的假设函数如下:
二、代价函数
代价函数(cost function)是用来衡量假设函数(hypothesis function )的准确度的。
直观上理解,代价函数越小,说明我们预测的结果和真实值越接近,因此最小化代价函数,就相当于最优化我们的模型。
如下是代价函数的表示,这个函数也叫均方误差函数,其中最前面的1/2m,是为了方便计算梯度下降。
以线性回归为例,我们训练模型,就是选择合适的参数值theta,使得h最小。如下图是当theta1=0.5时,假设函数h和代价函数的关系:
当theta1=1,是模型效果最好的取值,此时所有的预测值和真实值都相同,即代价函数值最小。
如下,是不同theta1取值,代价函数的变化:
当我们从单个 theta1 变量变为两个变量theta0和theta1时,代价函数J(theta0, theta1) 就变成下图所示,三维空间中的最小值,即theta0 和theta1的最佳取值。
0x02 梯度下降(Gradient Descent)
一、基本概念
我们有了假设函数h(x),也有了刻画模型训练好坏的代价函数J(theta0, theta1) ,那么该如何找到最优的参数使得J(theta0, theta1) 最小?梯度下降来了。
梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数J(theta0, theta1)的最小值。
梯度下降背后的思想是:开始时我们随机选择一个参数的组合,计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。持续这么做直到到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
二、求解
梯度下降(gradient descent)算法的公式为:
其中是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
计算方式图左侧的方式,右侧错误。更新的时候,需要对theta0和theta1同时更新。
三、学习速率
在梯度下降算法中,有一个学习速率alpha,它的大小取值对算法的影响如下:
如果alpha太小了,即我的学习速率太小,结果就是只能这样像小宝宝一样一点点地挪动,去努力接近最低点,这样就需要很多步才能到达最低点,所以如果太小的话,可能会很慢。
如果alpha太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到你发现实际上离最低点越来越远,所以,如果太大,它会导致无法收敛,甚至发散。
0xFF 总结
NG很贴心,专门补一下线代。
第一章的Cost Function和Gradient Descent主要以单变量线性回归为基础讲解的。后续每章都逐渐引入复杂的模型。
领取专属 10元无门槛券
私享最新 技术干货