Andrew Ng机器学习课程笔记--week2(多元线性回归&正规公式)

1. 内容概要

  • Multivariate Linear Regression(多元线性回归)
    • 多元特征
    • 多元变量的梯度下降
    • 特征缩放
  • Computing Parameters Analytically
    • 正规公式(Normal Equation )
    • 正规公式非可逆性(Normal Equation Noninvertibility)

2. 重点&难点

1)多元变量的梯度下降

2) 特征缩放

为什么要特征缩放

首先要清楚为什么使用特征缩放。见下面的例子

  • 特征缩放前

由图可以知道特征缩放前,表示面积的x1变量的值远大于x2,因此J(θ)图像表示就是椭圆的,导致在梯度下降的过程中,收敛速度非常慢。

  • 特征缩放后

对各变量特征缩放后绘制出来的损失函数J(θ)明显收敛更快,这也是为什么需要特征缩放的原因了。

实现方法

  • feature scaling
\[ \begin{equation} x_i := \frac{x_i}{x_\max - x_\min} \end{equation} \]
每个输入值除以(max - min)
  • mean normalization
\[ \begin{equation} x_i := \frac{x_i - μ_i}{s_i} \end{equation} \]
 μi: 均值
 si: max - min

3) Normal Equation 正规方程式

Normal Equation \[ \begin{equation} θ = (X^T·X)^{﹣1}·X·Y \end{equation} \]

具体推理过程详见掰开揉碎推导Normal Equation

与梯度下降方法进行比较

梯度下降

正规方程式

需要选择步长α

不需要选择步长α

需要迭代训练很多次

一次都不需要迭代训练

O(kn2)

O(n3,计算(XT·X)-1需要花费较长时间

即使数据特征n很大,也可以正常工作

n如果过大,计算会消耗大量时间

4) 正规方程不可逆

当XT·X不可逆时,很显然此时正规方程将不能正常计算,常见原因如下:

  • 冗余特征,在两个特点紧密相关(即它们呈线性关系,例如面积和(长,宽)这两个特征线性相关)
  • 太多的特征(例如:m≤n)。 在这种情况下,可以删除一些特征或使用"regularization"。

补充:

  • A是可逆矩阵的充分必要条件是 |A|≠0

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张耀琦的专栏

【机器学习入门系列】梯度下降法

什么是梯度下降法?学习速率的引入;如何调整学习速率;Adagrad算法介绍;用泰勒展开式对梯度下降法进行数学理论支持。

1.5K1
来自专栏编程

关于反向传播在Python中应用的入门教程

我来这里的目的是为了测试我对于Karpathy的博客《骇客的神经网络指导》以及Python的理解,也是为了掌握最近精读的Derek Banas的文章《令人惊奇的...

2087
来自专栏码洞

人工不智能之sklearn聚类

线性回归是一种有监督算法,提供了输入数据x和参考目标值y,参考目标提供了一种纠错机制,是对预测结果y_的监督,如果y和y_相差过大,说明拟合的模型可能存在问题。...

641
来自专栏kalifaの日々

机器学习CS229:lesson1&exercise1

一边打开MATLAB练习题目一“给出身高与年龄的线性关系”,一边看了第一课。 按顺序依次实现了三种最小二乘法求拟合曲线的算法。 算法一、批量梯度下降 J(θ)是...

35610
来自专栏深度学习思考者

DL开源框架Caffe | 模型微调 (finetune)的场景、问题、技巧以及解决方案

前言 什么是模型的微调?   使用别人训练好的网络模型进行训练,前提是必须和别人用同一个网络,因为参数是根据网络而来的。当然最后一层是可以修改的,因为我们...

5976
来自专栏木东居士的专栏

漫谈机器学习之小知识点总结

1964
来自专栏机器之心

教程 | 先理解Mask R-CNN的工作原理,然后构建颜色填充器应用

选自matterport 作者:Waleed Abdulla 机器之心编译 参与:刘晓坤 上年 11 月,matterport 开源了 Mask R-CNN 实...

3955
来自专栏和蔼的张星的图像处理专栏

SAMF

论文:paper 结合了CN和KCF的多尺度扩展,看文章之前就听说很暴力,看了以后才发现原来这么暴力。 论文的前一半讲KCF,后一半讲做的实验,中间一点点大...

1752
来自专栏fangyangcoder

数字图像处理之亮度变换

                                           by方阳

1434
来自专栏AI研习社

Tensorflow 中 learning rate decay 的奇技淫巧

深度学习中参数更新的方法想必大家都十分清楚了——sgd,adam 等等,孰优孰劣相关的讨论也十分广泛。可是,learning rate 的衰减策略大家有特别关注...

5474

扫码关注云+社区

领取腾讯云代金券