李逵和李鬼：残差和误差的辨析

文章来源：企鹅号 - 统计学和量化研究

【闲话】平时太忙，很久没更了，自己打理公众号，所以就有一搭没一搭，从上次十月初更新了一篇之后，已经时隔两个月。目前订阅用户已经接近两千人（误差为-2.5%，α=0.05水平的统计不显著）~~

言归正传

今天呢，给大家介绍一下残差项和误差项的区别。

Part I 谁是李逵？谁是李鬼？

概念辨析

在学习初级的统计时候，我们经常犯的一个错误就是概念不清。比如：什么是方差，什么是标准差，什么是标准误（姑且我们可以称之为“离散趋势三件套”）；又比如，什么是均值，什么是中位数，什么是众数（姑且我们可以称之为“集中趋势三件套”），当然了，集中趋势这个很好理解，但问题在于如何在不同的偏态分布时候确定三者的位置，摆正位置很重要~~

今天要介绍的主角，就是简单线性回归中的一个不起眼却很致命的角色：误差项和残差项。说不起眼，是因为我们在回归模型报告的结果中，不会理会这个东西，结果中不会汇报误差是怎么样的，残差是怎么样的。说它很致命，则是因为，如果处理不好，整个结果都估计不准确，有问题，得拖出去斩了。

但话说回来，这两个概念有何区别？可能直观上，我们会讲：没区别啊，残差和误差不就是一个东西吗？非也~那么，怎么区分这两个概念呢。

首先，最简单的区分，就是定义：

误差：测量值和真实值之间的差别；

残差：测量值和拟合值之间的差别。

他们的区别，就在于一对词组：真实值和拟合值。

举个通俗的例子：假设一段理想的钢材，长50cm，不会热胀冷缩（搬砖搬多了，都是这些粗糙的印象）。现在，我用一把100cm的尺子去测量这个钢材。在理想状态下，（控制温度--避免钢材热胀冷缩；控制尺子的材质等等），我测量了十次，但出现了几次与50cm不等的结果，比如50.1；50.2；49.9~等等。这样呢，由于人为的操作失误，导致了一定的测量误差。这样，记录下的十个数字，基本上都存在一定的误差。

为了更好的说明，我把这个捏造的例子用数据表示出来：

因为是捏造的数据，所以大致上就是这么一个结果。在这里，我们已知准确结果就是50cm，所以除了ID=4的测量准确之外，其他均有误差。

根据error=50-x1，得到了误差项。根据stata奇怪的算法，出现了多个位数的小数。那么接下来，残差是什么呢？什么是拟合值？

在这中间，y=50为真实值，红色线为拟合值，散点为测量值。那如何比较这几个指标之间的区别呢？图形如下。

Part II 怎样分析残差和误差？

实际中，并没有过于理想的情形。比如某段钢材的长度，其实在不同时间、温度之下，肯定是可变的，因此并不存在一个“确定的”绝对的长度。这个有点儿形而上的色彩。在社会科学的测量中，更是如此，我们要向测量收入，能测的准吗？不能。要测量受教育程度，能测的准吗？同样也不能。因此，我们不能得出来误差项到底是多大，因为“本体”不可知。

模型1：:理论模型

模型2：实际模型

模型3：误差项

模型4：残差项

可以看到，误差项和理论模型有关系，而残差项和实际模型有关系。

但这个时候，我们针对线性模型有假设：（1）线性假定；（2）正交假定：误差项期望为零；（3）独立同分布假定，误差项协方差为0；（4）正态分布假定。

因此，误差项和残差项的区别在于，误差项是相互独立的，协方差和数学期望都为零的；而残差项未必，它们可以彼此不独立，也可以期望不为零。残差出现问题的原因也有几个，并且残差出问题也多和误差项相关：误差项违反方差齐性假定、违反独立性假定、违反正态分布假定等等；回归模型本身非线性；存在异常值等等。

Part III 残差图

实际中，如何辨别残差图？给大家介绍几个图形

检测命令也很简单：twoway scatter y x1，然后看散点的分布。出现各种问题之后，当然就要找到相应的对策。我在之前的文章中有过介绍：异方差如何处理；遗漏重要变量如何处理；存在非线性关系（二次项等）如何处理。。。参考九月份的文章。

最后，在模型的制定过程中，通过仔细地检验，满足了一定的指标之后，我们就可以确定这个模型。

发表于: 2017-12-122017-12-12 16:25:38
原文链接：http://kuaibao.qq.com/s/20171212G0I6SE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

李逵和李鬼：残差和误差的辨析

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐