机器学习算法理论（一）回归问题

文章来源：企鹅号 - 程序员的那些事

机器学习算法理论（一）回归问题 ---梯度下降法

梯度下降

梯度下降是一个用来求函数最小值的算法，其思想是：

1. 开始时我们随机选择一个参数的组合（θ,θ1,...,θn），计算代价函数；

2. 然后我们寻找下一个能让代价函数值下降最多的参数组合。

3. 重复2，直到到到一个局部最小值（local minimum）。

因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。

想象一下你正站立这座红色山上，在梯度下降算法中，我们要做的就是旋转360度，看看我们的周围，并问自己要在某个方向上，用小碎步尽快到达低洼地带。这些小碎步需要朝什么方向？如果我们站在山坡上的这一点，你看一下周围，你会发现最佳的下山方向，你再看看周围，然后再一次想想，我应该从什么方向迈着小碎步下山？然后你按照自己的判断又迈出一步，重复上面的步骤，从这个新的点，你环顾四周，并决定从什么方向将会最快下山，然后又迈进了一小步，并依此类推，直到你接近局部最低点的位置。

看一下二维空间：

从红色点下山最快只有向下走一个方向，这个方向就是这一点切线的反方向。

那三维空间或多维空间呢？下降最快的方向就是各个维度切线的反方向。

其实，J(θ)的真正图形是类似下面这样的，因为其是一个凸函数，只有一个全局最优解，所以不必担心找到局部最优解。

直到了要找到图形中的最小值之后，下面介绍自动求解最小值的办法，这就是梯度下降法。

批量梯度下降

批量梯度下降（batch gradient descent）算法的公式为：

其中α是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。

有一点需要注意的是步长a的大小，如果α太小，则会迭代很多次才找到最优解，若α太大，可能跳过最优，从而找不到最优解。

另外，在不断迭代的过程中，梯度值会不断变小，所以θ1的变化速度也会越来越慢，所以不需要使速率α的值越来越小.

下图就是寻找过程

当梯度下降到一定数值后，每次迭代的变化很小，这时可以设定一个阈值，只要变化小鱼该阈值，就停止迭代，而得到的结果也近似于最优解。

若损失函数的值不断变大，则有可能是步长速率a太大，导致算法不收敛，这时可适当调整a值.

为了选择参数a，就需要不断测试，因为a太大太小都不太好。

”批量梯度下降”，指的是在梯度下降的每一步中，我们都用到了所有的训练样本，在梯度下降中，在计算微分求导项时，我们需要进行求和运算，所以，在每一个单独的梯度下降中，我们最终都要计算这样一个东西，这个项需要对所有m个训练样本求和。因此，批量梯度下降法这个名字说明了我们需要考虑所有这一"批"训练样本，而事实上，有时也有其他类型的梯度下降法，不是这种"批量"型的，不考虑整个的训练集，而是每次只关注训练集中的一些小的子集。

后面还会介绍其他梯度下降法，持续更新，欢迎关注【码农的点滴汇聚】。。。

发表于: 2019-02-132019-02-13 22:59:02
原文链接：https://kuaibao.qq.com/s/20190213G1A07I00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

机器学习算法理论（一）回归问题

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐