机器学习课程_笔记02

线性回归

首先展示了一段视频,介绍了Dean Pomerleau利用监督学习让一辆汽车可以自动行驶。

使用的符号

符号

代表的含义

m

训练样本的数目

X

输入变量,通常也可以称为特征

y

输出变量,有时也称为目标变量

(X, y)

表示一个样本

(\(X^{(i)}\), \(y^{(i)}\))

表示第i个样本

h

假设(hypothesis)函数

n

特征的个数

推导过程

首先是单个特征的线性假设函数

多个特征的线性假设函数

为了便利,定义

则有

\Theta被称为学习算法的参数,利用训练集合选择或学习得到合适的参数值是学习算法的任务。

为了进行预测,一件可以做的事是尝试让学习算法的预测在训练数据上尽可能准确。

那么就得到了线性回归算法里的成本函数。

们要做的是要使上述函数的值最小化。

下面有两个方法可以帮助选取\(\Theta\)以使上述函数的值最小化。

梯度下降(Gradient Descent Algorithm)

这是一个搜索算法,基本的想法是先给参数向量一个初始值,然后不断地改变参数向量使得不断减小,直到我们找到了一个使得取到了最小值,这个算法称之为梯度下降。

算法推导

这个导数即为梯度在\Theta_{i}上下降最陡的方向。

因此更新\(\Theta\)的过程可以总结为以下公式:

其中\(\alpha\)为学习速度参数,它控制了算法朝着最陡峭的方向下降的时候迈的步子有多大。\(\alpha\)值设的过小,算法向着最陡峭方向下降时,每次迈很小的一步,这样它会花很长时间去收敛。值设的过大,算法可能会越过最小值,因为步子迈的太大了。

最后得到更新\(\Theta\)的过程可以总结为以下公式:

批梯度下降

算法的过程就是重复以下过程,直接最后收敛。

在批梯度下降算法中每一次迭代都需要遍历整个训练集合。当训练数据集过大时,就不太适合了,而应该使用随机梯度下降算法

随机梯度下降(增量梯度下降)

伪代码示意:

一直重复上述过程,直至最后收敛。

这个算法可能会在全局最小值附近一直徘徊,通常得到的参数值能够很接近全局最小值,这已经足够了。这个算法通常比批梯度下降算法快得多,尤其是当你有一个大规模训练集合的时候。

正规方程组

对于最小二乘回归问题或者普通的最小二乘问题,实际上存在着方法可以直接给出参数向量的解析表达式,这样为了求参数的值就不需要进行迭代了,这个就是正规方程组。

定义一些符号

一些事实

证明正规方程过程中将用到上面所述的事实。

推导过程

然后算法的目标(算法尽量收敛)是

所以有

最后就有

上述公式被称为正规方程组。我们现在可以给出这个关于的方程组解的解析表达式了:

上述公式要求X^{T}X可逆,如果X^{T}X不可逆,可以用伪逆最小化的方法来解决这个问题。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏书山有路勤为径

矩阵与状态转移方程

均值现在是一个向量,每个维度对应一个元素,方差变为协方差。协方差定义的是高斯函数的分散

21560
来自专栏张洁的专栏

线性回归的高斯假设

在线性回归问题中,我们定义了损失函数,但是为什么用最小二乘(而不是三次方等)作为损失函数? 我们来尝试解决一个完整的线性回归问题。

65100
来自专栏AI科技评论

开发 | 监督学习最常见的五种算法,你知道几个?

AI科技评论按:本文作者李东轩,原文载于作者个人博客,AI科技评论已经获得授权。 在机器学习中,无监督学习(Unsupervised learning)就是聚类...

40190
来自专栏机器学习算法工程师

干货|(DL~3)deep learning中一些层的介绍

文章来自:https://leonardoaraujosantos.gitbooks.io 原文作者:Leonardo Araujo dos Santos

17330
来自专栏懒人开发

(5.1)James Stewart Calculus 5th Edition:Areas and Distances

通过图中的 y = f(x) ,可以大致知道: 有界且连续的函数f(x),有 a <=x <= b,有 f(x) >=0 也就是

15050
来自专栏机器学习算法与Python学习

机器学习(6) -- SVM

本篇主要是对支持向量机(support vector machine , SVM) 总结性的文章,想详细的理解SVM的请看之前所发的支持向量机系列文章。 Co...

37550
来自专栏人工智能头条

小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码)

55280
来自专栏深度学习与计算机视觉

从AlexNet理解卷积神经网络的一般结构

2012年AlexNet在ImageNet大赛上一举夺魁,开启了深度学习的时代,虽然后来大量比AlexNet更快速更准确的卷积神经网络结构相继出现,但是Alex...

41360
来自专栏计算机视觉战队

卷积神经网络就是这么简单就能学会

卷积神经网络和前几次介绍的神经网络非常相似:它们都是由神经元组成,神经元中有具有学习能力的权重和偏差。每个神经元都得到一些输入数据,进行内积运算后再进行激活函数...

14420
来自专栏AI研习社

监督学习最常见的五种算法,你知道几个?

在机器学习中,无监督学习(Unsupervised learning)就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起归位一类;而监督型学习(...

421110

扫码关注云+社区

领取腾讯云代金券