春节充电系列:李宏毅2017机器学习课程学习笔记03之梯度下降

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的regression问题,其中简要提及了梯度下降(gradient descent),这一节将主要针对梯度下降问题展开分析。本文内容涉及机器学习中梯度下降的若干主要问题:调整学习率、随机梯度下降、feature scaling、以及如何直观的理解梯度下降。话不多说,让我们一起学习这些内容吧。

春节充电系列:李宏毅2017机器学习课程学习笔记01之简介

春节充电系列:李宏毅2017机器学习课程学习笔记02之Regression

课件网址:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

视频网址:

https://www.bilibili.com/video/av15889450/index_1.html

李宏毅机器学习笔记—Gradient descent

在上一次的笔记中,在regression我们已经略微讲述了gradient descent(梯度下降),现在回顾一下

现在我们具体讲述一下gradient descent里面的问题

▌1. tuning your learning rates



在gradient descent过程中,learning rate需要我们自己设置,当其太小时,training过程太慢了,太大时,可能在最低点左右跳跃,当设置的恰恰好时,训练才会正常进行。去下图所示

在最开始的时候,我们离最低点远,采用较大的学习速率比较好,当离最低点越来越接近时,采用较小的学习速率可能比较好。所以固定的learning rate可能不太好,我们可以采用自适应的学习速率。

下面介绍一个称为adagrad的方法

从上图可以看出,随着训练次数的增加,训练速率越来越慢,且学习速率和以前的微分有关。

我们可以对这个方法一个直观的解释:这个方法可以强调训练速率的反差有多大

再来看看实际的解释,在一元函数中,一阶微分大小和离最低点距离成正比

但在多元函数中不是这样的,比如a和c

实际上继续观察下图,到最低点的距离不仅和一阶微分有关,还和二阶微分有关,C虽然一阶微分大,但二阶微分也大

所以adagrad中分母项相当于用来估计二次微分,直接算二次微分增大计算量,于是用一次微分来估计,采样许多一次微分点,二次微分大的地方在相同位置自然比二次微分小的地方平方大。

▌2. 随机梯度下降(stochastic gradient descent)



之前是算所有data的loss ,现在随机采样一个点,算这个采样点的loss,然后梯度下降

用这种方法速度更快,但以前的方法更平稳

▌3. Feature scaling



X的不同特征可能scale不一样,feature scaling的方法是让不同的feature用同样的scale

下图左边虽然也是梯度下降,但没指向最低点

Feature scaling的方法很简单,如下图所示

▌4. 从另一个角度来看待梯度下降方法



给定一个点,我们很容易找到其周围的最小点

先对在此点附近进行泰勒级数展开

然后h函数在此点周围可以近似表示如下形式

当u,v看做向量时,让loss最小时,如下图所示,要求反向即可

进而我们可以得到梯度下降的表达式

后台回复“LHY2017” 就可以获取 2017年李宏毅中文机器学习课程下载链接~

-END-

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-02-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

从R-CNN到YOLO,一文带你了解目标检测模型(附论文下载)

2333
来自专栏Petrichor的专栏

论文阅读: Speed/accuracy trade-offs

版权声明:转载请注明出处 https://blog.csdn.net/JNingWei/article/details/80045857 ...

2225
来自专栏新智元

代码开源 | COCO-16 图像分割冠军:首个全卷积端到端实例分割模型

【新智元导读】清华大学与微软研究院合作,提出了一种新的架构 FCIS,是首个用于图像实例分割任务的全卷积、端到端的解决方案,该架构在 COCO 2016 图像分...

77510
来自专栏新智元

【干货】随机森林的Python实现

【新智元导读】在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林几乎是任何预测类问题(甚至非线性问题)...

3695
来自专栏数据派THU

独家 | 初学者的问题:在神经网络中应使用多少隐藏层/神经元?(附实例)

本文将通过两个简单的例子,讲解确定所需隐藏层和神经元数量的方法,帮助初学者构建神经网络。

2160
来自专栏机器之心

学界 | CMU与谷歌新研究提出文本跳读方法,速度可达标准序贯LSTM的6倍

选自arXiv 机器之心编译 参与:吴攀 因为很多文本内容都含有一些与主题不相关的东西,所以让机器学会根据上下文进行跳读可以大大节省文本处理的时间和效率。近日...

3154
来自专栏杨熹的专栏

Logistic regression 为什么用 sigmoid ?

1333
来自专栏磐创AI技术团队的专栏

Ian Goodfellow等提出自注意力GAN,ImageNet图像合成获最优结果!

1093
来自专栏marsggbo

DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试、正则化以及优化--Week1深度学习的实用层面

更多笔记请火速前往 DeepLearning.ai学习笔记汇总 本周我们将学习如何配置训练/验证/测试集,如何分析方差&偏差,如何处理高偏差、高方差或者二者...

2435
来自专栏智能算法

卷积神经网络工作原理直观解释

其实我们在做线性回归也好,分类(逻辑斯蒂回归)也好,本质上来讲,就是把数据进行映射,要么映射到一个多个离散的标签上,或者是连续的空间里面,一般简单的数据而言,我...

3179

扫码关注云+社区