“条件异方差”(简称“异方差”)是违背球型扰动假设的一种情形,即条件方差
依赖于
(
),而不是常数
。
【举例】考虑一元回归
,假设
是解释变量
的增函数,即
越大则
越大。
OLS 回归线在
较小时可以较精确地估计,而在
较大时则难以准确估计。
方差较大的数据包含的信息量较小,但 OLS 却对所有数据等量齐观进行处理,故异方差的存在使得 OLS 的效率降低。
在异方差的情况下,加权最小二乘法(Weigthed Least Square,WLS)才是 BLUE 。WLS 通过对不同数据所包含信息量的不同进行相应的处理以提高估计效率。比如,给予信息量大的数据更大的权重。
存在异方差的情况下:
估计量无偏:用 OLS 估计所得参数估计量
仍具有无偏性,即
。
估计量非有效:存在异方差时,
不是
的有效估计;直接计算
有误 。
观察 “残差
与拟合值
的散点图” 或者 “残差
与某个解释变量
的散点图” 。画图是直观方法,但不严格。
(图片来源:古扎拉蒂《计量经济学基础》(第五版), p.377)
上图中,图(a) 未发现两变量之间有任何系统性关系,图(b)到图(e)表明两变量呈现一定的关系。图(c)表示呈现线性关系,图(d)和图(e)表示
与
呈现二次关系。利用图示虽然是非正式的方法,但是却有可能对数据进行变换,使变换后的数据不具有异方差性(如通过对数变换对原始数据进行压缩)。
use ${d}/nerlove.dta, clear
/*
【数据说明】此数据集包括以下变量:
tc (总成本),q (总产量),pl (工资率), pk (资本的使用成本) 与 pf (燃料价格);
以及相应的对数值 lntc, lnq,lnpl,lnpk 与 lnpf。
*/
reg lntc lnq lnpl lnpk lnpf
* 1.残差图 -rvfplot- (residual-versus-fitted plot)
rvfplot //残差与拟合值的散点图
rvpplot lnq // 残差与解释变量 lnq 的散点图
从上面两张图可以看出,残差与拟合值、解释变量 lnq
之间呈现线性关系,由此猜测存在异方差。
假设回归模型:
记
。
假设样本数据为 iid (Koenker, 1981) ,则
。
“条件同方差”的原假设为:
由于
,原假设可写为:
如果
不成立,则条件方差
是
的函数,称为“条件方差函数”(conditional variance function)。
假设此条件方差函数为线性函数:
故原假设可以简化为:
由于扰动项
不可观测,故使用残差平方和
替代,进行辅助回归(auxiliary regression):
记此辅助回归的拟合优度为
,
越高,则辅助回归方程越显著,越可拒绝
。
Breusch and pagan(1979) 使用 LM 统计量,进行 LM 检验(Lagrange Multiplier Test):
如果 LM 大于
的临界值,则拒绝同方差的原假设。
【问题】为什么 LM 统计量是
呢?
在大样本中,
与检验整个方程显著性的 F 统计量渐近等价。
首先,对于辅助回归,检验原假设
的 F 统计量:
其次,在大样本情况下,F 分布与
分布是等价的。即:
在原假设
成立的情况下,辅助回归方程常数项回归,故:
当
时,
,而
。
因此:
在大样本下,
与
并无差别,故 LM 检验与 F 检验渐近等价。
如果认为异方差主要依赖被解释变量拟合值
,可将辅助回归改为:
然后检验
(可使用 F 或 LM 统计量)。
**Breusch and pagan(1979) 的最初检验假设扰动项
服从正态分布,有一定的局限性。**Koenker(1981) 将此假定减弱为 iid ,使得 BP 检验在实际中较多采用。
【总结】BP 检验步骤(伍德里奇《计量经济学导论》(第五版)p.225)
,得到 OLS 残差平方
(每次观测得到一个)。
回归,记下此回归的
。
分布,后者使用
分布)。如果这个 p 值很小,即低于选定的显著性水平,那么就拒绝同方差性的原假设。
如果 BP 检验得到一个足够小的 p 值,那么就应该采取修正措施,使用异方差-稳健标准误,或者 WLS 。
* 2.BP 检验
estat hettest, iid rhs
/*
其中:
- “estat”指 post-estimation statistics(估计后统计量),即在完成估计后所计算的后续统计量。
- “hettest” 表示 heteroskedasticity test。
- 选择项 “iid” 表示仅假定数据为 iid,而无须正态假定。
- 选择项 “rhs” 表示,使用方程右边的全部解释变量进行辅助回归,默认使用拟合值 \hat y 进行辅助回归。
estat hettest [varlist], iid //指定使用 varlist 进行辅助回归
*/
BP 检验假设条件方差函数为线性函数,可能忽略了高次项。
怀特检验(White, 1980)在 BP 检验的辅助回归中加入所有的二次项(含平方项与交叉项)。
考虑以下二元回归:
除常数项外,只有
和
两个解释变量,故二次项包括
,
与
。
怀特检验的辅助回归为:
其中,
为二元回归方程的残差平方。
对原假设
进行 F 检验或 LM 检验。
怀特检验可以检验任何形式的异方差;因为根据泰勒展开式,二次函数可很好地逼近任何光滑函数。
如果解释变量较多,则解释变量的二次项(含交叉项)将更多,在辅助回归中将损失较多样本容量。
* 3.怀特检验
estat imtest, white // imtest: information matrix test(信息矩阵检验)
如发现异方差,一种处理方法是,仍进行 OLS 回归(OLS 依然无偏、一致且渐近正态),但使用在异方差情况下也成立的稳健标准误。这是最简单,也是目前通用的方法。
只要样本容量较大,即使在异方差的情况下,只要使用稳健标准误,则所有参数估计、假设检验均可照常进行。
【补充】何为“稳健标准误”?(伍德里奇《计量经济学导论》(第五版)p.219)
在一般多元回归模型:
在假定 MLR.1~MLR.4 下,
的一个有效估计量是:
其中,
表示将
对所有其他自变量做回归所得到的第
个残差,而
则是这个回归的残差平方和。上式的平方根被称为
的异方差-稳健标准误(heteroskedasticity-robust standard error)。
方差较小的观测值包含的信息量较大。对于异方差的另一处理方法是,给予方差较小的观测值较大的权重,然后进行加权最小 二乘法估计。
WLS 的基本思想是:通过变量转换,使得变换后的模型满足球形扰动项的假定(变为同方差),然后进行 OLS 估计,即为最有效率的 BLUE 。
考虑线性回归模型:
假定 ,且 {vi}{i=1}^n 已知。
两边同乘权重
可得:
新扰动项
不再有异方差,因为:
对乘以权数后的方程进行 OLS 回归,即为 WLS 。
加权之后的回归方程满足球形扰动项的假定,故是 BLUE 。
可将 WLS 定义为最小化“加权残差平方和”,即:
权重为
(即方差的倒数)(Stata 也是如此约定)。
WLS 的
通常没有太大的意义,它衡量的是变换之后的解释变量
对变换之后的被解释变量
的解释力。
使用 WLS 虽然可以得到 BLUE 估计,但是必须知道每位个体的方差,即
。实践中通常不知道
,故 WLS 事实上是不可行(infeasible)的。
解决办法:先用样本数据估计
,然后再使用 WLS ,称为 “可行加权最小二乘法” (Feasible WLS,简称 FWLS )。
在进行 BP 检验时,进行如下辅助回归:
其中,
为原方程的残差平方。
通过辅助回归的拟合值,可得
的估计值:
但可能出现
的情形,而方差不能为负。
为保证
,假设条件方差函数为对数形式:
对此方程进行 OLS 回归,可得
的预测值,记为
。
得到拟合值
(一定为正)。
以
为权重对原方程进行 WLS 估计,记此估计量为
。
* 4.WLS
/*
得到扰动项方差的估计值 ${\hat \sigma_{i}^2}_{i=1}^n$ 后,可作为权重进行 WLS 估计。
假设已把 ${\hat \sigma_{i}^2}_{i=1}^n$ 存储在变量 var 上,可通过如下 Stata 命令来实现 WLS :
*/
reg y x1 x2 x3 [aw=1/var]
/*
其中,“aw”表示 analytical weight,为扰动项方差(不是标准差)的倒数。
*/
use ${d}/nerlove.dta, clear
/*
【数据说明】此数据集包括以下变量:
tc (总成本),q (总产量),pl (工资率), pk (资本的使用成本) 与 pf (燃料价格);
以及相应的对数值 lntc, lnq,lnpl,lnpk 与 lnpf。
*/
reg lntc lnq lnpl lnpk lnpf
* 1.残差图 -rvfplot- (residual-versus-fitted plot)
rvfplot //残差与拟合值的散点图
rvpplot lnq // 残差与解释变量 lnq 的散点图
* 2.BP 检验
estat hettest, iid rhs
/*
其中:
- “estat”指 post-estimation statistics(估计后统计量),即在完成估计后所计算的后续统计量。
- “hettest” 表示 heteroskedasticity test。
- 选择项 “iid” 表示仅假定数据为 iid,而无须正态假定。
- 选择项 “rhs” 表示,使用方程右边的全部解释变量进行辅助回归,默认使用拟合值 \hat y 进行辅助回归。
estat hettest [varlist], iid //指定使用 varlist 进行辅助回归
*/
quietly reg lntc lnq lnpl lnpk lnpf
estat hettest, iid // 使用拟合值进行 BP 检验
estat hettest, iid rhs // 使用所有解释变量进行 BP 检验
estat hettest lnq, iid // 使用变量 lnq 进行 BP 检验
/*
结果解读:
各种形式 BP 检验的 p 值都等于 0.0000,故强烈拒绝同方差的原假设,认为存在异方差。
*/
* 3.怀特检验
estat imtest, white // imtest:information matrix test(信息矩阵检验)
/*结果解读:
p值(Prob>chi2)等于 0.0000,强烈拒绝同方差的原假设,认为存在异方差。
*/
* 4.WLS
/*
得到扰动项方差的估计值 ${\hat \sigma_{i}^2}_{i=1}^n$ 后,可作为权重进行 WLS 估计。
假设已把 ${\hat \sigma_{i}^2}_{i=1}^n$ 存储在变量 var 上,可通过如下 Stata 命令来实现 WLS :
reg y x1 x2 x3 [aw=1/var]
其中,“aw”表示 analytical weight,为扰动项方差(不是标准差)的倒数。
*/
quietly reg lntc lnq lnql lnpk lnpf
predict e1, residual
gen e2 = e1^2
gen lne2 = log(e2)
reg lne2 lnq // 假设 $\ln{\hat \sigma_{i}^2}$ 为变量 `lnq' 的线性函数进行辅助回归
/*
结果解读:变量lnq在1%水平上显著,但R2仅为0.1309,且常数项不显著 ( p 值为 0.26)。
*/
reg lne2 lnq, noc //去掉常数项重新进行辅助回归
/*
结果解读:
R2上升为 0.7447(尽管无常数项的R2与有常数项的R2不可比), 残差平方的变动与 lnq 高度相关。
*/
predict lne2f // 计算辅助回归的拟合值
gen e2f = exp(lne2f) //去掉对数后,即得到方差的估计值
reg lntc lnq lnpl lnpk lnpf [aw=1/e2f] // 使用方差估计值的倒数作为权重,WLS
/*
结果解读:
WLS 回归的结果显示,lnpk 的系数估计值由“-0.22”(OLS 估 计值)改进为“-0.09”(其理论值应为正数)。
使用 OLS 时,变量 lnpl 的 p 值为 0.13,在 10% 的水平上也不显著;
使用 WLS 后,该变量的 p 值变为 0.002,在 1% 的水平上显著不为 0。
由于 Nerlove(1963)数据存在明显的异方差,使用 WLS 后提高了估计效率。
*/
/*
如担心条件方差函数的设定不准确,导致加权后的新扰动项仍有异方差,可使用稳健标准误进行 WLS 估计:
*/
reg lntc lnq lnpl lnpk lnpf [aw=1/e2f], r
/*
结果解读:
无论是否使用稳健标准误,WLS 的回归系数都相同,但标准误有所不同。
*/