前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >计量笔记 | 简单线性回归

计量笔记 | 简单线性回归

作者头像
PyStaData
发布2021-03-05 10:08:44
3.8K1
发布2021-03-05 10:08:44
举报
文章被收录于专栏:PyStaDataPyStaData

1. 简单线性回归

总体回归函数(PRF)与样本回归函数(SRF)

可使用蒙特卡洛法进行模拟,所谓“蒙特卡罗法”(Monte Carlo Methods,MC),是通过计算机模拟,从总体抽取大量随机样本的计算方法。

代码语言:javascript
复制
* PRF 和 SRF:蒙特卡罗模拟
clear
set obs 30
set seed 10101

gen x = rnormal(3, 4)
gen e = rnormal(0, 9)
gen y = 1*x + e //Data Generation Process
reg y x

tw function PRF = 1+2*x, range(-5 15) || ///
scatter y x || lfit y x, lp(dash)

计量经济学的主要任务之一就是通过数据

\{x_i,y_i\}_{i=1}^n

来获取关于总体参数

(\alpha, \beta)

的信息。

1.1 OLS 估计量的推导

目标:残差平方和最小

\min_{\hat \alpha, \hat \beta} \sum_{i=1}^n e_{i}^2 = \sum_{i=1}^n (y_i-\hat \alpha -\hat \beta x_i)^2

此最小化问题的一阶条件为:

\begin{cases} \frac{\delta}{\delta \hat \alpha} \sum_{i=1}^n e_i^2 = -2\sum_{i=1}^n (y_i - \hat \alpha - \hat \beta x_i) = 0 \\ \frac{\delta}{\delta \hat \beta} \sum_{i=1}^n e_i^2 = -2 \sum_{i=1}^n (y_i - \hat \alpha - \hat \beta x_i) x_i = 0 \end{cases}

消去方程左边的

-2

,可得:

\begin{cases} \sum_{i=1}^n (y_i - \hat \alpha - \hat \beta x_i) = 0 \\ \sum_{i=1}^n (y_i - \hat \alpha - \hat \beta x_i)x_i = 0 \end{cases}

对上式各项分别求和,移项可得:

\begin{cases} n \hat \alpha + \hat \beta \sum_{i=1}^n x_i = \sum_{i=1}^n y_i \\ \hat \alpha\sum_{i=1}^n x_i + \hat \beta \sum_{i=1}^n x_i^2 = \sum_{i=1}^n x_iy_i \end{cases}

上式为“正规方程组”。记

\bar y = \frac{1}{n}\sum_{i=1}^n y_i, \bar x = \frac{1}{n} \sum_{i=1}^n x_i

,则:

\hat \alpha = \bar y - \hat \beta \bar x

将上式带入可得:

(\bar y - \hat \beta\bar x)\sum_{i=1}^n x_i + \hat \beta \sum_{i=1}^n x_i^2 = \sum_{i=1}^n x_iy_i

合并同类项,移项可得:

\hat \beta (\sum_{i=1}^n x_i^2 - \bar x \sum_{i=1}^n x_i) = \sum_{i=1}^n x_iy_i - \bar y \sum_{i=1}^n x_i

使用关系式

\sum_{i=1}^n x_i = n \bar x

,求解

\hat \beta

\hat \beta = \frac{\sum_{i=1}^n x_iy_i - n \bar{xy}}{\sum_{i=1}^n x_i^2-n \bar x^2}

更直观的写为离差形式:

\hat \beta = \frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^n(x_i-\bar x )^2}

最后,求得:

\hat \alpha = \bar y - \hat \beta \bar x
\hat \beta = \frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^n(x_i-\bar x )^2}

1.2 平方和分解公式

(图片来源:古扎拉蒂《经济计量学精要》(第四版)p.54)

由上图可知,

Y

的观测值围绕其均值(total variation)可分解为两部分,一部分来自回归线(ESS),另一部分来自随机扰动(RSS)。


【注释】TSS、ESS 和 RSS 的叫法在不同的教材会有区别

在古扎拉蒂的教材中,定义总平方和(TSS)、解释平方和(ESS)、残差平方和(RSS)。

在伍德里奇的教材中,定义总平方和(total sum of squares, SST)、解释平方和(explained sum of squares, SSE) 和残差平方和(residual sum of squares,SSR)。

在 Stata 汇报的结果中:解释平方和(SS of Model)、残差平方和(SS of Residual)和 总平方和(SS of Total)。


平方和分解公式:

\underbrace{\sum_{i=1}^n (y_i-\bar y)^2}_{TSS}= \underbrace{\sum_{i=1}^n(\hat y_i-\bar y)^2}_{ESS}+ \underbrace{\sum_{i=1}^n e_{i}^2}_{RSS}

【证明】 将离差

(y_i - \bar y)

写为

(y_i - \hat y_i + \hat y_i - \bar y)

,则可将 TSS 写为:

\sum_{i=1}^n (y_i - \bar y)^2 = \sum_{i=1}^n (y_i - \hat y_i + \hat y_i - \bar y)^2 = \sum_{i=1}^n (e_i + \hat y_i - \bar y)^2 \\ = \sum_{i=1}^n e_i^2 + \sum_{i=1}^n(\hat y_i - \bar y)^2 + 2 \color{red}{\sum_{i=1}^ne_i(\hat y_i - \bar y)}

只需证明交叉项

\sum_{i=1}^ne_i(\hat y_i - \bar y)=0

即可,而这由 OLS 的正交性所保证:

\sum_{i=1}^n e_i(\hat y_i-\bar y) = \sum_{i=1}^n e_i \hat y_i - \sum_{i=1}^ne_i = 0 - 0 = 0

如果没有常数项,则无法保证

\sum_{i=1}^n e_i = 0

,故平方和分解公式不成立。此时,使用非中心

R^2

(uncentered

R^2

)。


1.3 拟合优度

0 \leq R^2 \equiv \frac{\sum_{i=1}^n(\hat y_i - \bar y)^2}{\sum_{i=1}^n (y_i-\bar y)^2} = 1 - \frac{\sum_{i=1}^ne_{i}^2}{\sum_{i=1}^n (y_i-\bar y)^2} \leq 1

有常数项的情况下,拟合优度等于被解释变量

y_i

与拟合值

\hat y_i

之间相关系数的平方,即

R^2 = [Corr(y_i,\hat y_i)]^2

,故记为

R^2

R^2

只反映了拟合程度的好坏,评估回归方程是否显著应使用 F 检验。

1.4 无常数项的回归

无常数项的一元线性回归模型可以写为:

y_i = \beta x_i + \epsilon_i \quad(i=1, ..., n)

依然进行 OLS 估计,最小化残差平方和为:

\min_{\hat \beta} \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat \beta x_i)^2

一阶条件为:

\frac{d}{d \hat \beta} \sum_{i=1}^n e_i^2 = -2 \sum_{i=1}^n (y_i - \hat \beta x_i) x_i = 0

消去方程左边

-2

,可得:

\sum_{i=1}^n (y_i - \hat \beta x_i) x_i = 0

求解

\hat \beta

可得:

\hat \beta = \frac{\sum_{i=1}^n x_iy_i}{\sum_{i=1}^n x_i^2}

如果回归模型无常数项,则平方和分解公式不成立,不宜使用

R^2

来度量拟合优度。

e_i = y_i - \hat \beta x_i

,则正规方程可写为:

\sum_{i=1}^n x_ie_i = 0

记拟合值为

\hat y_i \equiv \hat \beta x_i

,则容易证明残差仍与拟合值正交:

\sum_{i=1}^n \hat y_i e_i = \sum_{i=1}^n \hat \beta x_ie_i = \hat \beta \sum_{i=1} x_ie_i= \hat \beta \cdot0 = 0

仍可利用 OLS 的正交性将

\sum_{i=1}^n y_i^2

分解为:

\sum_{i=1} y_i^2 = \sum_{i=1}^n (\hat y_i + e_i)^2 = \sum_{i=1}^n \hat y_i^2 + 2\underbrace{\sum_{i=1}^n \hat y_ie_i}_{=0} + \sum_{i=1}^n e_i^2 = \sum_{i=1}^n \hat y_i^2 + \sum_{i=1}^n e_i^2
\sum_{i=1}^n \hat y_i^2

为可由模型解释的部分,而

\sum_{i=1}^n e_i^2

为模型不可解释的部分。

定义非中心

R^2

R_{uc}^2 = \frac{\sum_{i=1}^n \hat y_i^2}{\sum_{i=1}^n y_i^2}

如果无常数项,Stata 汇报的

R^2

正是

R_{uc}^2

1.5 Stata 命令及实例

1.5.1 简单线性回归的 Stata 实例
代码语言:javascript
复制
use ${d}/grilic.dta, clear
/*
数据说明:此数据集包括 758 位美国年轻男子的教育投资回报率数据
*/
reg lnw s
reg lnw s, noc // 无常数项回归
1.5.2 PRF 与 SRF: 蒙特卡洛法
代码语言:javascript
复制
/*
PRF: y_i = 1 + 2x_i + \epsilon_i \quad (i=1, ..., 30)
解释变量:$x_i ~ N(3, 2^2)$,扰动项 $\epsilon_i ~ N(0,3^2)$,样本容量为 30 。
*/

clear
set obs 30
set seed 10101

gen x = rnormal(3, 4)
gen e = rnormal(0, 9)
gen y = 1*x + e
reg y x

tw function PRF = 1+2*x, range(-5 15) || ///
scatter y x || lfit y x, lp(dash)

参考资料

  1. 陈强, 2015. 计量经济学及 Stata 应用[M]. 高等教育出版社.
  2. 古扎拉蒂, 波特, 2010. 经济计量学精要[M]. 机械工业出版社.
  3. 杰弗里·M·伍德里奇, 2015. 计量经济学导论(第五版)[M]. 北京: 中国人民大学出版社.
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PyStaData 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 简单线性回归
  • 1.1 OLS 估计量的推导
  • 1.2 平方和分解公式
  • 1.3 拟合优度
  • 1.4 无常数项的回归
  • 1.5 Stata 命令及实例
    • 1.5.1 简单线性回归的 Stata 实例
      • 1.5.2 PRF 与 SRF: 蒙特卡洛法
      • 参考资料
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档