机器学习(四) ——梯度下降算法解释以及求解θ

机器学习(四)——梯度下降算法解释以及求解θ

(原创内容,转载请注明来源,谢谢)

(本文接 机器学习(二) 的内容)

一、解释梯度算法

梯度算法公式以及简化的代价函数图,如上图所示。

1)偏导数

由上图可知,在a点,其偏导数小于0,故θ减去小于0的数,相当于加上一个数。另外,从图上可以看出,在a点不是最佳点,需要继续向右移动,即a需要增加。因此符合要求。

对于在b点,可以同理得到需要减少的结果。

2)学习速率α

α表示点移动向最小值点的速率,α取值需要注意。

当值太大,每次移动的距离太长,可能导致在最小值点附近时,移动会超出最小值点的位置,导致不断的在大于、小于最小值点的位置偏移,无法收敛;

当值太小,移动速度非常慢,会导致程序执行时间太久。

另外,由于在越接近最小值点,偏导数的数量值(绝对值)越小,因此变化速率本身就会变慢,因此选定α后,不需要再去调整数值,其自己会减慢速率。

二、梯度算法缺陷

由上图可知,对于有多个极小值点的代价函数,梯度算法只能取到局部最小值点,即函数的极小值点,但是没法保证该点就是最小值点。

三、求解θ

公式如上图所示,实质上就是求偏倒的结果。

不断的计算θ0和θ1,直到偏导数为0(或者设定小于某个阈值),则停止计算,此时的结果则是对于某个起始点的局部最优结果。

——written by linhxx 2017.12.28

原文发布于微信公众号 - 决胜机器学习(phpthinker)

原文发表时间:2017-12-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏算法channel

足够惊艳:神经网络可以逼近任意函数吗?

神经网络可以强大到近似逼近任意函数吗?是的。有没有一种通俗易懂、图形化的方式证明呢?

702
来自专栏深度学习

循环神经网络

循环神经网络的神经网络体系结构,它针对的不是自然语言数据,而是处理连续的时间数据,如股票市场价格。在本文结束之时,你将能够对时间序列数据中的模式进行建模,以对未...

3708
来自专栏编程

关于反向传播在Python中应用的入门教程

我来这里的目的是为了测试我对于Karpathy的博客《骇客的神经网络指导》以及Python的理解,也是为了掌握最近精读的Derek Banas的文章《令人惊奇的...

1777
来自专栏程序生活

交叉熵初识-cross entropy定义举例

1144
来自专栏小詹同学

深度学习入门笔记系列 ( 二 )

本系列将分为 8 篇 。今天是第二篇 。主要讲讲 TensorFlow 框架的特点和此系列笔记中涉及到的入门概念 。

883
来自专栏媒矿工厂

大规模图像检索的深度哈希方法简介

传统的图像检索过程,先通过人工对图像进行文字标注,再利用关键字来检索图像,这种依据图像描述的字符匹配程度提供检索结果的方法,称为“以字找图”(text-base...

5009
来自专栏大数据挖掘DT机器学习

在深度学习TensorFlow 框架上使用 LSTM 进行情感分析

在这篇教程中,我们将介绍如何将深度学习技术应用到情感分析中。该任务可以被认为是从一个句子,一段话,或者是从一个文档中,将作者的情感分为积极的,消极的或者中性的。...

5447
来自专栏人工智能LeadAI

梯度下降法快速教程 | 第一章:Python简易实现以及对学习率的探讨

前言 梯度下降法(Gradient Descent)是机器学习中最常用的优化方法之一,常用来求解目标函数的极值。 其基本原理非常简单:沿着目标函数梯度下降的方向...

3438
来自专栏文武兼修ing——机器学习与IC设计

基于sklearn的文本特征抽取理论代码实现

理论 机器学习的样本一般都是特征向量,但是除了特征向量以外经常有非特征化的数据,最常见的就是文本 结构化数据 当某个特征为有限的几个字符串时,可以看成一种结构化...

2787
来自专栏决胜机器学习

机器学习(二) ——线性回归、代价函数与梯度下降基础

机器学习(二) ——线性回归、代价函数与梯度下降基础 (原创内容,转载请注明来源,谢谢) 一、线性回归 线性回归是监督学习中的重要算法,其主要目的在于用一个...

3956

扫描关注云+社区