首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

李逵和李鬼:残差和误差的辨析

【闲话】 平时太忙,很久没更了,自己打理公众号,所以就有一搭没一搭,从上次十月初更新了一篇之后,已经时隔两个月。目前订阅用户已经接近两千人(误差为-2.5%,α=0.05水平的统计不显著)~~

言归正传

今天呢,给大家介绍一下残差项和误差项的区别。

Part I 谁是李逵?谁是李鬼?

概念辨析

在学习初级的统计时候,我们经常犯的一个错误就是概念不清。比如:什么是方差,什么是标准差,什么是标准误(姑且我们可以称之为“离散趋势三件套”);又比如,什么是均值,什么是中位数,什么是众数(姑且我们可以称之为“集中趋势三件套”),当然了,集中趋势这个很好理解,但问题在于如何在不同的偏态分布时候确定三者的位置,摆正位置很重要~~

今天要介绍的主角,就是简单线性回归中的一个不起眼却很致命的角色:误差项和残差项。说不起眼,是因为我们在回归模型报告的结果中,不会理会这个东西,结果中不会汇报误差是怎么样的,残差是怎么样的。说它很致命,则是因为,如果处理不好,整个结果都估计不准确,有问题,得拖出去斩了。

但话说回来,这两个概念有何区别?可能直观上,我们会讲:没区别啊,残差和误差不就是一个东西吗?非也~那么,怎么区分这两个概念呢。

首先,最简单的区分,就是定义:

误差:测量值和真实值之间的差别;

残差:测量值和拟合值之间的差别。

他们的区别,就在于一对词组:真实值和拟合值。

举个通俗的例子:假设一段理想的钢材,长50cm,不会热胀冷缩(搬砖搬多了,都是这些粗糙的印象)。现在,我用一把100cm的尺子去测量这个钢材。在理想状态下,(控制温度--避免钢材热胀冷缩;控制尺子的材质等等),我测量了十次,但出现了几次与50cm不等的结果,比如50.1;50.2;49.9~等等。这样呢,由于人为的操作失误,导致了一定的测量误差。这样,记录下的十个数字,基本上都存在一定的误差。

为了更好的说明,我把这个捏造的例子用数据表示出来:

因为是捏造的数据,所以大致上就是这么一个结果。在这里,我们已知准确结果就是50cm,所以除了ID=4的测量准确之外,其他均有误差。

根据error=50-x1,得到了误差项。根据stata奇怪的算法,出现了多个位数的小数。那么接下来,残差是什么呢?什么是拟合值?

在这中间,y=50为真实值,红色线为拟合值,散点为测量值。那如何比较这几个指标之间的区别呢?图形如下。

Part II 怎样分析残差和误差?

实际中,并没有过于理想的情形。比如某段钢材的长度,其实在不同时间、温度之下,肯定是可变的,因此并不存在一个“确定的”绝对的长度。这个有点儿形而上的色彩。在社会科学的测量中,更是如此,我们要向测量收入,能测的准吗?不能。要测量受教育程度,能测的准吗?同样也不能。因此,我们不能得出来误差项到底是多大,因为“本体”不可知。

模型1::理论模型

模型2:实际模型

模型3:误差项

模型4:残差项

可以看到,误差项和理论模型有关系,而残差项和实际模型有关系。

但这个时候,我们针对线性模型有假设:(1)线性假定;(2)正交假定:误差项期望为零;(3)独立同分布假定,误差项协方差为0;(4)正态分布假定。

因此,误差项和残差项的区别在于,误差项是相互独立的,协方差和数学期望都为零的;而残差项未必,它们可以彼此不独立,也可以期望不为零。残差出现问题的原因也有几个,并且残差出问题也多和误差项相关:误差项违反方差齐性假定、违反独立性假定、违反正态分布假定等等;回归模型本身非线性;存在异常值等等。

Part III 残差图

实际中,如何辨别残差图?给大家介绍几个图形

检测命令也很简单:twoway scatter y x1,然后看散点的分布。出现各种问题之后,当然就要找到相应的对策。我在之前的文章中有过介绍:异方差如何处理;遗漏重要变量如何处理;存在非线性关系(二次项等)如何处理。。。参考九月份的文章。

最后,在模型的制定过程中,通过仔细地检验,满足了一定的指标之后,我们就可以确定这个模型。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171212G0I6SE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券