多重线性回归假设条件(四)

作者:红豆牛奶 审核:X 封面:自己想吧

异常值

本文主要介绍多重线性回归的假设条件:是否存在显著的异常值。我们将介绍以下三种方法:

1.离群值:主要是通过个案诊断及学生化删除残差来判断。(注:学生化删除残差的稳定性更好)

2.强杠杆点

3.影响点

例子:通过调研统计了播种面积x1、施用化肥量x2、降雨量x3、和相应的粮食产量y,试用多重线性回归来分析。(本例只针对异常值的判断给出操作步骤)

操作步骤:Step1.分析——回归——线性

【因变量】选入y,【自变量】选入:x1、x2、x3。

Step2【统计】中勾选个案诊断

Step3【残差】中勾选学生化删除残差、【距离】勾选库克距离、杠杆值

结果:

1. 生成3个新的变量,分别是SDE_1(学生化删除残差)、COO_1(库克距离)即强影响点、LEV_1(杠杆值)。

2.三种方法有各自的判断方式:

离群值:个案诊断:当 -3学生化删除残差:当-3

杠杆值:若杠杆值 0.5,则极有可能为异常值)

库克距离:若库克距离>1,则此个案极有可能为异常值。

解读方法一:从下图中各项指标的最大值、最小值可以看到以上三个指标都在安全范围内,所以可以判定不存在异常值。

解读方法二:排序,看最大值最小值的情况是否在安全范围内,也可得出不存在异常值。(以下只给出操作步骤,不再赘述。)两种方法大家可以自行选择。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180605G0BD3800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券