TensorFlow从0到1丨 第六篇:解锁梯度下降算法

上一篇 5 TF轻松搞定线性回归,知道了模型参数训练的方向是由梯度下降算法指导的,并使用了TF的封装tf.train.GradientDescentOptimizer(0.01)(学习率为0.01)完成了机器自学习的过程。

本篇开启梯度下降算法的黑盒一探究竟,并解锁几个TF API常用参数的真正含义:

  • learning rate;
  • steps;
  • epoch;
  • batch。
雪山速降

一般函数的最小值问题

4 第一个机器学习问题 引入了损失函数的定义,即待训模型参数为自变量,计算模型输出的均方差。函数C(a,b)的最小值处的(a, b)值即我们要找的模型参数的最优解。

B-O-F-1 损失函数

本节将之前损失函数自变量a和b一般化表示为v1,v2,把求解损失函数的最小化问题,转换为更一般的函数C(v1,v2)最小化问题,C(v1,v2)具有任意的函数形式。如果找到一般的函数最小值求解方法,那么具有特殊形式的损失函数最小值求解自不在话下。

对于C是一个或者少数几个变量的函数,可以通过函数极值点处的导数特性来获得多元方程组,直接求解极值点。但是我们准备放弃这种尝试,因为对于一个真实世界的机器学习问题,其模型的复杂程度通常会远远的高于线性模型,参数的个数远不止两个,损失函数的形式会变成:C(v1, v2 ... vn),如果n数以亿计,用微积分的方法简直就是噩梦。

雪山速降的启发

把损失函数想象成前面图中的雪山,直觉上速降的最佳路径就是沿着雪山最陡峭的方向下山。

如果我们不能直接看出函数的最小值,或者通过直接求解的方式得到函数最小值,那么利用雪山速降的启发,总是沿着最陡峭的下降方向移动,就会最快到达最小值点。

回到数学的角度,考虑有两个自变量的二次函数C(v1, v2),它是一个曲面。假设有个小球靠自身重力滚落到曲面的底部,可以想象其路径也是沿着“最陡峭”的方向的。

那么“最陡峭”在数学上的表达是什么呢?

梯度下降

梯度的定义

微积分告诉我们,当把v1, v2, ... , vn各个自变量移动一个很小的值,C将有如下变化:

B-C-F-1 微积分

梯度定义有:

B-C-F-2 梯度

v的变化量为∆v ≡ (∆v1, ∆v1, ..., ∆v1)T,则C的变化量可重写为梯度向量C与v的变化向量∆v的点乘:

B-C-F-3 C的增量

梯度下降算法

直觉上,如果v朝某个方向上移动,导致C的增量是个负数,那么就说明C在“下降”。

开下脑洞,直接令∆v = -ηC,其中η是一个正数,代入公式B-C-F-3有:

∆C ≈ -ηC·C = -η‖C‖2 ≤ 0,此时∆C一定小于等于0,C在下降。

幸运的是,数学上可以证明对于一个非常小的固定步长,∆v = -ηC可以使C的减小最大化。这就是说,-ηC是我们期望v移动的正确方向!其中η是学习率learning rate

“最陡峭的一小步”的数学解释就是沿着梯度的负方向上走一小步。“梯度下降”,名副其实。

只要一小步一小步朝着正确的方向移动,迟早可以走到C(v1, v2, ..., vn)的最小值处。

梯度下降的具体操作方法如下:

1. 随机选取自变量的初始位置v;

2. v → v' = v - ηCv(v移动到v',Cv是v处的梯度值,η保持不变);

3. v' → v'' = v' - ηCv'(v'移动到v'',Cv'是v'处的梯度值,η保持不变);

4 ....

v移动的次数,即训练的步数steps。

v是各个自变量(v1, v2, ..., vn)的向量表示,那具体到每个自变量该如何移动呢?以v1,v2为例:

B-O-F-3 梯度下降

随机梯度下降算法

到此,梯度下降算法解决了如何寻求一般函数C(v1, v2, ..., vn)的最小值问题(这个算法在有些情况下会失效,会在后面讨论),那么马上应用到机器学习吧。可是别急,还差一小步。

B-O-F-2 损失函数

回到损失函数,再仔细看看其形式,发现它有个特别之处,即函数表达式与训练样本集密切相关。原因是它是每个样本方差的累加,最后再求均值。训练样本集通常成千上万,为了求取C难道真的需要先代入所有训练样本吗?

实践中,其实不是这样的,而是有更加巧妙的方法:

B-O-F-4 样本梯度均值

损失函数的梯度C,可以通过单个样本梯度值Cx的均值得到。计算单个样本的梯度值Cx是相对容易的。如果你对这个公式持怀疑态度,这不奇怪,一个简单的消除疑虑的做法就是用之前的线性模型和损失函数,用两个样本值分别计算一下等式两边,看是否相等即可。

可即便如此,对于样本集成千上万个样本,对每个样本x都求其Cx,计算量还是太大了。假如故意减少样本数量会怎么样呢?也就是说,用一个小批量样本,通过其中每个样本Cx的均值,来近似计算C:

B-O-F-5 样本梯度均值的近似

这就是实践中采用的方法,被称为随机梯度下降法。那个小批量样本就是一个batch。

把全部样本集分成一批批的小样本集,每全部遍历使用过1次,就称为1次迭代,即epoch。

据此,再给出每个自变量移动的公式:

B-O-F-6 分量的增量

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-08-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT技术精选文摘

机器学习之预测分析模型

介绍 预测分析是基于以前收集的数据来预测未来的结果。它包括两个阶段: 训练阶段:从训练数据中学习一个模型。 预测阶段:使用模型预测未知或未来的结果。 预测模...

2986
来自专栏大数据互联网思维

KNN(K-近邻算法):靠跟自己关系的远近来做预测的算法

假设你是某影视网站序员中的一员。你们网站的用户热衷于观看《延禧攻略》《如懿传》这类古装宫廷剧,而你们平台有机会花1000万买下《扶摇》的版权。

3183
来自专栏机器人网

机器学习岗位面试问题汇总之 深度学习

1.模式识别、机器学习、深度学习的区别与联系 模式识别:过去、程序/机器做智能的事、决策树等 机器学习:热点领域、给数据+学习数据 深度学习:前言领域、强...

2583
来自专栏人工智能

基于深度学习的图像目标检测(下)

依然要感激如此美丽的封面图片。 在“基于深度学习的图像目标检测(上)”里面, 我们详细介绍了R-CNN走到端到端模型的Faster R-CNN的进化流程。 ...

4519
来自专栏AI2ML人工智能to机器学习

基于深度学习的图像目标检测(下)

依然要感激如此美丽的封面图片。 在“基于深度学习的图像目标检测(上)”里面, 我们详细介绍了R-CNN走到端到端模型的Faster R-CNN的进化流程。 ...

1023
来自专栏人工智能LeadAI

用TensorFlow做Kaggle“手写识别”达到98%准确率-详解

这是一个TensorFlow的系列文章,本文是第三篇,在这个系列中,你讲了解到机器学习的一些基本概念、TensorFlow的使用,并能实际完成手写数...

4669
来自专栏ATYUN订阅号

【测试】技能测试问题和答案:测试图像处理数据科学家的25个问题

1)将以下图像格式匹配到正确的频道数。 灰度 RGB I.1个通道 II.2个通道 III.3个通道 IV.4个通道 A)RGB – > I,灰度-> II...

3565
来自专栏机器人网

人工智能领域 700 多个专业术语-谷歌开发者机器学习词汇表

本文为机器之心编译:该术语库项目目前收集了人工智能领域 700 多个专业术语,但仍需要与各位读者共同完善与修正。本文编译自谷歌开发者机器学习术语表项目,介绍了该...

3488
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 15 - 重新思考神经网络初始化

上一篇14 交叉熵损失函数——克服学习缓慢从最优化算法层面入手,将二次的均方误差(MSE)更换为交叉熵作为损失函数,避免了当出现“严重错误”时导致的学习缓慢。...

4227
来自专栏MelonTeam专栏

【译】关于深度神经网络必须知道的一些技巧(上)

翻译自魏秀参博士的文章:Must Know Tips/Tricks in Deep Neural Networks ? | 深度神经网络,特别是卷积...

3706

扫码关注云+社区