李宏毅机器学习笔记（六）梯度下降

文章来源：企鹅号 - 日常学习者

在此之前，我们已经简单的了解了一下梯度下降，不妨复习一下：

以下是3个和梯度下降有关的技巧:

Tuning your learning rates

Stochastic Gradient Descent

Feature Scaling

Tuning your learning rates

有时候Learning Rate 可能会给你造成问题，举例来说：

如果你的Learning Rate大小合适的话，那么就会顺着红色的箭头慢慢到达最低点；如果你的Learning Rate太小的话，它会顺着蓝色箭头花很长时间到达最低点；如果你的Learning Rate太大的话，它的步伐太大了，可能没办法到达最低点。

最流行也是最简单的做法就是：在每一轮都通过一些因子来减小learning rate。

最开始时，我们距离最低点很远，所以我们用较大的步长。

经过几轮后，我们接近了最低点，所以我们减少learning rate。

比如： 1/t 衰减：

learning rate 不能从一而终

要给不同的参数设置不同的learning rate。

为了达到此目的，有很多种方法，Adagrad就是其中一种：

具体来说，就是

Stochastic Gradient Descent

让Trainning变得更快！

Feature Scaling

让特征值具有相同的缩放程度。

那该怎么做呢？一种常见的做法是

以上。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货