李宏毅机器学习笔记(六)梯度下降

在此之前,我们已经简单的了解了一下梯度下降,不妨复习一下:

以下是3个和梯度下降有关的技巧:

Tuning your learning rates

Stochastic Gradient Descent

Feature Scaling

Tuning your learning rates

有时候Learning Rate 可能会给你造成问题,举例来说:

如果你的Learning Rate大小合适的话,那么就会顺着红色的箭头慢慢到达最低点;如果你的Learning Rate太小的话,它会顺着蓝色箭头花很长时间到达最低点;如果你的Learning Rate太大的话,它的步伐太大了,可能没办法到达最低点。

最流行也是最简单的做法就是:在每一轮都通过一些因子来减小learning rate。

最开始时,我们距离最低点很远,所以我们用较大的步长。

经过几轮后,我们接近了最低点,所以我们减少learning rate。

比如: 1/t 衰减:

learning rate 不能从一而终

要给不同的参数设置不同的learning rate。

为了达到此目的,有很多种方法,Adagrad就是其中一种:

具体来说,就是

Stochastic Gradient Descent

让Trainning变得更快!

Feature Scaling

让特征值具有相同的缩放程度。

那该怎么做呢?一种常见的做法是

以上。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180423G11XOD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券