统计学习导论 Chapter3--Linear Regression

Book: An Introduction to Statistical Learning with Applications in R http://www-bcf.usc.edu/~gareth/ISL/

本章主要介绍线性回归,这个方法很古老也很经典 这里先上一个广告预算和销售收入的数据图

3.1 Simple Linear Regression Simple linear regression is a useful approach for predicting a response on the basis of a single predictor variable 单个变量的分析

we can regress sales onto TV by fitting the model

当我们用训练数据拟合模型,得到了 model coefficients,那么可以使用下面的模型来预测 future sales

3.1.1 Estimating the Coefficients 如何估计这些模型参数了 我们有 n 个训练数据

我们定义 residual sum of squares (RSS)

定义损失函数,使用 least squares 方法最小化损失函数,得到 coefficient estimates

3.1.2 Assessing the Accuracy of the Coefficient Estimates 如何评估我们估计的参数值有多准确了? 假定 X和Y 的 true relationship 的形式如下:

如果 f 使用一个线性模型来近似,我们可以将 X和Y 的 relationship 的形式如下:

公式(3.5)对应的模型定义了 population regression line,它是对 X和Y 的 true relationship 的 best linear approximation least squares regression coefficient estimates (3.4) 对应的拟合线 我们称之为 least squares line (3.2)

Notice that different data sets generated from the same true model result in slightly different least squares lines, but the unobserved population regression line does not change.

第一眼看上去, the population regression line 和 the least squares line 的差异性是细微的令人困惑的。我们只有一个数据集,两条不同的线描述同一个数据集的 the predictor and the response 的关系是什么意思了? Fundamentally, the concept of these two lines is a natural extension of the standard statistical approach of using information from a sample to estimate characteristics of a large population. 这两条线的概念是 统计学习方法用采样数据来估计 a large population 的一些特性的一个自然延伸。例如,假定我们对一个随机变量 Y 的 population mean µ 感兴趣,但是 µ 是未知的,但是我们有对 Y 的一组采样值 n observations,我们可以用这些观测值来估计均值 µ ,一个合理的估计是

The sample mean and the population mean are different,但是通常 sample mean 可以对 population mean 提供一个很好的估计。类似的, the unknown coefficients β 0 and β 1 in linear regression define the population regression line,我们对这些参数使用(3.4)进行估计,这些参数估计定义了 least squares line

linear regression 和随机变量均值的估计 都涉及到一个概念: bias 偏差。如果我们用样本均值 sample mean µ^ 来估计 µ,这个估计就是 unbiased,从平均的意义上来说,我们期望µ^ 等于 µ,这究竟是什么意思了? 对于某一特定观测数据集,µ^可能 overestimate µ,对另一观测数据集,µ^可能 underestimate µ。但是如果我们的观测样本数量足够大,那么这个估计的均值就完全等于µ。 所以一个无偏估计器对于要估计的参数没有系统的误差。无偏属性对于用(3.4)得到的最小二乘参数估计同样成立:如果我们在某一特定数据集上估计 β 0 和 β 1,我们的估计结果可能不会完全等于 β 0 和 β 1。但是 如果我们的数据集足够的大,那么这个估计值就完全等于参数的真值。

我们继续随机变量 Y 的均值 µ 的估计。一个很自然的问题就是作为 µ 的估计 sample mean µ^ 到底有多准确?我们知道当观测的数据很多时,我们的估计值 µ^ 会很接近真值 µ,但是对于单个估计值 µ^ 它可能小于或大于真值 µ。那么这个估计值 µ^ 离真值 µ 到底有多远了? 这里我们通过计算 µ^ 的标准差 standard error SE(µ^)来回答这个问题,首先我们来看看下面的公式:

其中 σ 是 standard deviation 简单的来说,标准差 standard error 告诉我们估计值µ^ 和 真值 µ 偏差的均值,上面的公式也告诉我们随着观测数据的增加,n 的增大,这个deviation是如何减小的。同样的方式,我们也可以估计 β0^ and β1^ 分别离各自的真值有多远?其 standard errors 计算如下所示

这个公式成立的条件是 each observation are uncorrelated with common variance。现实中并不能满足这个条件,但是这个公式仍然可以给出一个很好的近似估计。 Standard errors 可以用于计算 confidence intervals。一个 95%的 confidence interval 被定义为估计值在这个范围内以95%的概率包含参数的真值。对于 linear regression 来说, the 95% confidence interval for β 1 形式如下:

Standard errors 也可以用于参数的 hypothesis tests,最常用的 hypothesis test 涉及测试 the null hypothesis of

因为如果 β1 = 0,那么 X和 Y 之间就没有相关性。为了测试 the null hypothesis,我们需要确认我们对 β1 的估计 β1^ 是否离 0 足够的远,这样我们可以确保 β1 不是 0。 但是多远算够了?.How far is far enough? 这当然依赖于 β1^ 的精度,也就是依赖于 SE( β1^ ),如果 SE( β1^ ) 足够的小,那么即使 β1^相对较小的值也说明 β1 不等于0,也就是说 X和Y 之间存在关联性。相反,如果 SE( β1^ ) 足够大,那么 β1 的绝对值必须很大才能让我们拒绝 the null hypothesis。实际中,我们使用下面公式 计算 t-statistic

它计算 β1^ 距离 0 的 standard deviations,如果 X 和 Y 之间没有相关性,那么我们期望上面的公式有一个 n−2 degrees of freedom 的 t-distribution, t-distribution 是一个钟形 bell shape,当n大于 30时,它就很像 正态分布。所以,假定 β1=0,那么计算任何观测值大于等于 t 的绝对值。我们将这个概率称之为 p-value。简单的来说,我们解释 p-value 如下:一个小的 p-value 显示 不是偶然因素使我们观察到 输入输出之间的相关性。所以当我们看到一个小的 p-value,我们可以得出的结论是:输入输出之间存在相关性。我们 reject the null hypothesis—就是当 p-value 足够小,我们声称 X 和 Y 存在相关性。 Typical p-value cutoffs for rejecting the null hypothesis are 5% or 1%. When n = 30, these correspond to t-statistics (3.14) of around 2 and 2.75, respectively.

3.1.3 Assessing the Accuracy of the Model 如何评估模型的拟合精度了?这里我们介绍 对线性回归拟合质量的评估的两个相关 quantities: the residual standard error (RSE) and the R2 statistic Residual Standard Error

RSE is an estimate of the standard deviation of

. Roughly speaking, it is the average amount that the response will deviate from the true regression line

R2 Statistic

R2 measures the proportion of variability in Y that can be explained using X. An R2 statistic that is close to 1 indicates that a large proportion of the variability in the response has been explained by the regression. A number near 0 indicates that the regression did not explain much of the variability in the response; this might occur because the linear model is wrong, or the inherent error σ2 is high, or both.

3.2 Multiple Linear Regression Simple linear regression is a useful approach for predicting a response on the basis of a single predictor variable 单个变量分析

3.2.1 Estimating the Regression Coefficients 多变量参数估计还是使用 least squares approach,只不过需要使用矩阵来表示更简洁,所以这里我们就可以给出具体推导 当我们进行multiple linear regression,我们主要关注以下四个问题: 1. Is at least one of the predictors X 1 ,X 2 ,…,X p useful in predicting the response? 2. Do all the predictors help to explain Y , or is only a subset of the predictors useful? 3. How well does the model fit the data? 4. Given a set of predictor values, what response value should we predict, and how accurate is our prediction? 后面的讨论都是围绕这个四个问题展开的。

3.3 Other Considerations in the Regression Model 3.3.1 Qualitative Predictors 不是定量描述变量,而是定性描述变量 predictors are qualitative

3.3.2 Extensions of the Linear Model 线性模型有两个假设:additive and linear 在实际问题中,有时不满足这两个假设 所以有时需要我们去掉这两个假设 : Removing the Additive Assumption

Non-Linear Relationships

3.3.3 Potential Problems 使用线性回归模型可能存在的问题 1. Non-linearity of the response-predictor relationships. 2. Correlation of error terms. 3. Non-constant variance of error terms. 4. Outliers. 5. High-leverage points. 6. Collinearity. 这里做了些简要的分析,不是本书关注的重点

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法工程师

你必须要知道CNN模型:ResNet

作者:叶 虎 编辑:张 欢 PART 01 ResNet简介 引言 深度残差网络(Deep residual network, ResNet)的提出是CNN...

6507
来自专栏数据派THU

一文读懂支持向量积核函数(附公式)

来源:jerrylead 本文通过多个例子为你介绍支持向量积核函数,助你更好地理解。 核函数(Kernels) 考虑我们最初在“线性回归”中提出的问题,特征是房...

58014
来自专栏数据科学学习手札

(数据科学学习手札24)逻辑回归分类器原理详解&Python与R实现

一、简介   逻辑回归(Logistic Regression),与它的名字恰恰相反,它是一个分类器而非回归方法,在一些文献里它也被称为logit回归、最大熵...

3638
来自专栏专知

【资源】15个在线机器学习课程和教程

本文推荐15个机器学习课程和行业领先大牛的教程。其中大多数课程都是免费的,无需注册即可自学。内容包括决策树、朴素贝叶斯、逻辑回归、神经网络和深度学习、估计、贝叶...

2766
来自专栏企鹅号快讯

详解各种随机算法

转自:JarvisChu 之前将的算法都是确定的,即对于相同的输入总对应着相同的输出。但实际中也常常用到不确定的算法,比如随机数生成算法,算法的结果是不确定的,...

3709
来自专栏SimpleAI

【DL笔记3】一步步亲手用python实现Logistic Regression

从【DL笔记1】到【DL笔记N】,是我学习深度学习一路上的点点滴滴的记录,是从Coursera网课、各大博客、论文的学习以及自己的实践中总结而来。从基本的概念、...

914
来自专栏小小挖掘机

残差网络ResNet网络原理及实现

论文地址:https://arxiv.org/pdf/1512.03385.pdf

1313
来自专栏AI研习社

谷歌工程师:聊一聊深度学习的weight initialization

编者按:本文作者夏飞,清华大学计算机软件学士,卡内基梅隆大学人工智能硕士。现为谷歌软件工程师。作者授权雷锋网 AI 研习社发布。 ? █ TLDR (or th...

2735
来自专栏机器之心

四天速成!香港科技大学 PyTorch 课件分享

机器之心整理 参与:黄小天、蒋思源 前天,香港科技大学计算机系教授 Sung Kim 在 Google Drive 分享了一个 3 天速成的 TensorFlo...

3889
来自专栏IT派

【无监督学习】DBSCAN聚类算法原理介绍,以及代码实现

主要包括:K-means、DBSCAN、Density Peaks聚类(局部密度聚类)、层次聚类、谱聚类。

1414

扫码关注云+社区