前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ISLR线性回归笔记

ISLR线性回归笔记

作者头像
用户1147754
发布2019-05-27 08:31:07
8820
发布2019-05-27 08:31:07
举报
文章被收录于专栏:YoungGyYoungGy

一个例子

根据Auto数据集中的数据,建立mpg~hoursepower之间的线性关系。

问题

有如下的问题:

  1. 在XX和YY之间是否存在关系?
  2. 在XX和YY之间关系的强度如何?
  3. 在XX和YY之间关系是正相关还是负相关?
  4. 当horsepower是98时,95%的置信区间和预测区间分别是多少?
  5. 画出线性回归图
  6. 画出诊断图

答案

1.先对数据做初步的描述性分析

这里写图片描述
这里写图片描述

对单个的predicter做是否有效(不等于0)的检验可以使用t-test,但是对整体做是否有效(至少有一个系数不等于0)则需要用F-test。

由上图中,F-statistic:599.7 on 1 and 390 DF, p-value<2.2e-16。 假定虚无假说(所有的系数都为0)为真,因为F检定远远大于1并且其对应的p值非常靠近0,因此我们拒绝虚无假说,承认数据显著性(statistically significant),predicter和responser之间是有关系的。


2.判断模型的强弱有两种方法(RSE和R2)

  • RSE:mpg的平均值为23.4459184,lm.fit的RSE(residual standard error)为4.906,两者相除表明残差率为20.92%。
  • R2:lm.fit的R2为0.606,意味着mpg有60.6%的方差可以被horsepower解释。

3.相关关系是负相关,因为horsepower的coefficient系数为负。


4.置信区间和预测区间如下


5.线性回归图如下

这里写图片描述
这里写图片描述

6.诊断图如下

这里写图片描述
这里写图片描述

线性回归

回归概述

Y=β0+β1X+ϵ

Y = \beta_0 + \beta_1 X + \epsilon

ϵ\epsilon项捕获了所有的误差情况,例如模型非线性、X包含不完全、测量误差等。同时默认误差项ϵ\epsilon独立于XX。

一些参数

RSS(residual sum of squares)

RSS=e21+e22+...+e2n

RSS=e_1^2+e_2^2+...+e_n^2

用样本参数去估计群体参数有多精确,引入了standard error of μ̂ \hat{\mu}

Var(μ̂ )=SE(μ̂ )2=σ2n

Var(\hat{\mu})=SE(\hat{\mu})^2 = \frac{\sigma^2}{n}

其值域会随着n的增大皱缩,表示了估计量到真实量之间的距离。

对于线性回归

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

其中,σ2=Var(ϵ)\sigma^2=Var(\epsilon)。为了让上式有效,应该假定误差项ϵ\epsilon独立不相关且方差一样,但即使不满足问题也不是特别大。 同时,注意到当x分布越广,SE(β1^)SE(\hat{\beta1})越小。这和我们的直觉相符合:当数据分布越广泛,对斜率的估计越准确。

值得注意的是,虽然σ2\sigma^2(误差项的方差)未知,但是可以从数据集中估计出来,使用的方法为residual standard error,其公式为

RSE=RSS/(n−2)‾‾‾‾‾‾‾‾‾‾‾√

RSE = \sqrt{RSS/(n-2)} RSE可以被用来计算置信区间(confidence intervals),95%的置信区间意味着有95%的概率区间包含真实值,区间具体为

β1^±2∗SE(β1^)

\hat{\beta_1} \pm 2*SE(\hat{\beta1})

同时,SE(β1^)SE(\hat{\beta1})还可以进行系数的假设检验,即是否系数离0足够远。如果SE(β1^)SE(\hat{\beta1})比较小,那么即使比较小的系数值,检验结果也可能是数据显著的。

通常,我们计算t统计量。

t=β1^−0SE(β1^)

t = \frac{\hat{\beta_1}-0}{SE(\hat{\beta1})} 上式测量了β1\beta_1距离0有多少个SE(β1^)SE(\hat{\beta1})。如果X和Y真的没有关系,那么我们期望t值会有n-2自由度的t分布(钟形曲线,如果n>30则很接近正态曲线)。

模型精度

RSE

RSE(residual standard error)

RSE=RSS/(n−2)‾‾‾‾‾‾‾‾‾‾‾√

RSE = \sqrt{RSS/(n-2)} RSE通常被认为the lack of fit of the model。如果RSE很小,一般认为模型与数据配合地很好。

R2R^2

R2=TSS−RSSTSS

R^2 = \frac{TSS-RSS}{TSS} R2可以用来衡量多个变量的共同作用效果,相关系数cor一般用来衡量一对变量的相关性。

重要的问题

X和Y之间是否存在关系

使用F检定

F=(TSS−RSS)/pRSS/(n−p−1)

F = \frac{(TSS-RSS)/p}{RSS/(n-p-1)} F足够大于1则可以证明数据显著性,更具体可以使用p-value。

决定重要的变量

  1. forward selection:从0变量开始逐个重复增加变量。
  2. back selection: 从全模型开始移除最大的P值变量。
  3. mixed selection:先增加,增加的过程中删除变大的且不满足p值要求的变量。

模型拟合

当加入新的变量,R2总是提高的,但是RSE不一定,两者都要参考决定适合的模型。

预测

预测区间比置信区间更广。

协同作用

hierarchical principle所述:如果我们包含了两个变量的协同作用,那么初始作用也得包括,即使p值检定不是数据显著。

非线性关系

可以利用多项式构建非线性关系。

潜在的问题

非线性

这里写图片描述
这里写图片描述

我们可以尝试logX,X‾‾√,X2log X,\sqrt{X},X^2等非线性参数。

误差项的相关性

如果误差项相关,那么置信区间将会比应该的更窄,变得没有保障。

这里写图片描述
这里写图片描述

误差项的非常数

这里写图片描述
这里写图片描述

遇到上述情况,可以使用logY、Y‾‾√logY、\sqrt{Y}。

越值点

这里写图片描述
这里写图片描述

通常把studentized residual>3的点认为是outlier。

杠杆点

越值点只有杠杆足够大时,才有很大的效果。

这里写图片描述
这里写图片描述

共线性

这里写图片描述
这里写图片描述

共线性会导致最值的RSS的范围变大,导致系数估计的不确定性增大(置信区间变大),SE(β)SE(\beta)变大,t值变小,很可能导致显著性检验失败,偏向于虚无假设。

检查共线性,有两种方法: 1.相关矩阵:适应与成对变量的共线性 2.VIF(variance inflation factor),其超过5和10则意味着共线性的存在。

线性回归与KNN的比较

线性回归是参数性的方法,事先假定了模型,KNN则不然,其K值越小,灵活性越大,意味着更高的variance和更小的bias。

理论上,非参数的方法在线性情况下略差于LR,在非线性的情况下极好于LR。 但是,现实情况一般是高维的,维度的增高对LR的MSE影响较小,但是对KNN的影响极大,在高维空间中会造成样本数的相对减少,名之curse of dimension。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2015年06月01日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一个例子
    • 问题
      • 答案
      • 线性回归
        • 回归概述
          • 一些参数
          • 模型精度
            • RSE
              • R2R^2
              • 重要的问题
                • X和Y之间是否存在关系
                  • 决定重要的变量
                    • 模型拟合
                      • 预测
                        • 协同作用
                          • 非线性关系
                          • 潜在的问题
                            • 非线性
                              • 误差项的相关性
                                • 误差项的非常数
                                  • 越值点
                                    • 杠杆点
                                      • 共线性
                                      • 线性回归与KNN的比较
                                      领券
                                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档