前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2.2 线形回归

2.2 线形回归

作者头像
rocket
发布2018-09-14 11:28:52
1.8K0
发布2018-09-14 11:28:52
举报

21. 单变量线形回归

21.1 描述如何用线形回归分析经济变量上的依赖和非依赖关系

dependent = explained variable 已解释的 independent = explanatory variable 说明变量

使用scatter plot画出两个变量的散点图来分析关系

21.2 解释一个population regression function,regression coefficient,parameter,slope,intercept,error term

,intercept coefficient,截距,X为0时的期望值 ,slope coefficient,斜率,X变动多少,Y变动多少 ,error term,线形关系没法解释的噪音

21.3 说明一个sample regression function

用样本数据来得到regression function

, residual, 和很接近,但不相等

21.4 描述线形回归的关键属性

假设存在满足线形关系的参数,但变量可能是也可能不是线形关系

21.5 定义OLS回归,计算intercept和slope

OLS Ordinary least Squares:让残差平方最小的intercept和slope

需要知道的信息要有,X,Y的均值,方差,相关系数

21.6 描述OLS的3个关键假设

, 残差不依赖于X

  1. 所有X,Y是i.i.d的,independent and identically distributed
  2. large outlier很大的异常值被观测到的概率很低

21.7 总结使用OLS的好处

在实践中使用很广泛,OLS展现了令人满意的属性

OLS estimators exhibit desirable properties of an estimator

21.8 描述OLS估计值的属性和样本分布,解释通用一致估计值的属性

OLS estimator是随机变量,所以有自己的样本分布

针对一个总体,随机抽取多个样本, 每个样本都用OLS的到估计值, 然后用这些估计值用来估计总体参数

unbiased and consistent

如果估计值的期望等于被估计的参数, 而且随着样本的增加,估计值也越来越准确, 那么估计值是unbiased和consistent

21.9 说明ESS,TSS和RSS,standard error of regression,regression

TSS=ESS+SSR

ESS

Explained sum of square 回归线上的点到Y均值的距离平方

TSS

Total sum of square 实际的点X到Y均值的距离平方

RSS

Residual sum of square,也叫SSE sum of squared error 实际的点X到回归线的距离平方

Coefficient of determination

correlation coefficient:

SER

Standard error of regression 是回归线中residual的标准差,SER越小,说明回归拟合的越好

21.10 说明OLS回归的结果

假设确定的条件存在, 一个总体未知的OLS回归的结果可以用来描述dependent和independent变量之间的关系

22 单变量线形回归假设检验

22.1 计算解释回归系数的置信区间

22.2 解释P-value

P-value是null假设可以被拒绝的最小显著性水平 common level 是5%

22.3 解释回归系数的假设检验

使用n-2作为degree of freedom

  1. 计算t
  1. 判断 如果t在设定的置信区间内,就reject,拒绝的含义是b1和B1不同

一般为了测试独立变量X能否解释非独立变量Y, 会假设B1=0,然后根据样本计算t值 如果t值不在的置信区间内, 结论是B1不等于0,两个变量的斜率是显著的

22.4 评估homoskedasticity和heteroskedasticity的影响

  • homoskedasticity:同方差性,residual的方差保持一致
  • heteroskedasticity:异方差性,residual的方差保持一致
    • 非条件异方差:e的方差变化和X有关,不导致重要问题
    • 条件异方差:e的方差变化和X无关,导致显著问题

异方差的影响: 1. b的标准差不可靠 2. 不受到影响 3. 如果b的标准差很小,但是不被影响,那么t结果就会很大而导致null hyphthesis经常被reject 4. 如果b的标准差过大,那么会减少null hypothesis的reject

22.5 定义OLS是BLUE的条件

如果线形回归假设是真, 而且regression error是同方差的, OLS是best linear unbiased estimator

22.6 解释Gauss-Markov理论和它的限制

Gauss-Markov理论说OLS estimator有如下特性: 1. 估计的b有最小的方差 2. 估计的b基于线形 3. 估计的b是无偏的,样本均值的期望等于总体 4. b的方差也是无偏的,样本方差的期望

Limitation: 在实践中条件很难满足,尤其是异方差情况下

22.7 应用和解释当样本很小时t-statistic

当样本很小时,我们必须假设是线性回归的,error term是同方差的,而且是正态分布的

23 多变量线形回归

23.1 定义和解释omitted变量偏差,描述定位这种偏差的方法

Omitted Variable bias的两个条件 1. 忽略的变量和X的移动有关系 2. 忽略的变量是Y的决定变量

通过测试上面两个条件来定位是否有遗漏的变量

23.2 区分sigle和multiple regression

multiple regression:有多个自变量的回归关系

23.3 解释多元回归的斜率系数

在multivariate regression中,一个X的slope coefficient描述的是保持其他参数不变,看一个X和Y的关系。

23.4 描述多元化回归的同方差和异方差

  • Homoskedasticity含义是对所有X,error term constant
  • Heteroskedasticity含义是error term随着X样本改变

23.5 在一个多元回归中描述OLS估计值

如果估计的b0,b1,b2让SSR最小,那么就是OLS estimator

23.6 计算和解释多元回归的合适度量

Standard Error of Regression是用回归公式预测Y的标准差

n是样本数量,k是多元X的个数

决定系数

由一组X决定的回归线到Y均值距离/Y实际值到Y均值的距离

会随着X数量的增加而增加,这是一个问题

Adjusted 可以做到不随X数量的增加而变化, 比R2小

Adjusted 的推算过程:

ANOVA Table:

df

Sum Squared

Mean Squared

Explained

k

ESS

ESS/k

Residual

n-k-1

SSR

SSR/(n-k-1)

Total

n-1

TSS

TSS/(n-1)

23.7 解释多元线性回归的假设

  1. X和Y有线性关系
  2. 两个X之间无线性关系
  3. error term的期望是0
  4. error term的方差是恒定的
  5. 一个观察的error term和另一个观察的error term无关
  6. error term 正态分布

23.8 解释不完美和完美多重共线性和他们的影响

  • Perfect multicollinearity:当一个X和另外一个X完美线性相关时就是多重共线性
  • Imperfect multicollinearity:当两个X相关,但不是完美相关时出现。

multicollinearity的影响: 会导致错误的得出一个变量不显著,但是实际显著的结论。

有病被诊断无病,假阴性,Type II error

24 多变量线形回归假设检验

24.1 构建,应用和解释在多元线性回归中单个系数的假设检验和置信区间

多元假设线性回归检验某个系数的统计显著性流程
  1. 设定要检验的假设
  1. 计算t值, 自由度是n-k-1
  1. 根据指定显著性水平和df=n-k-1,查表的到置信区间
  2. 判断结果
    • 如果t不在置信区间内,则reject

    , 得出结论

解释P-value

是可以拒绝H0的最小显著水平

24.2 构建,应用和解释在多元线性回归中多个系数的假设检验

多元假设线性回归检验多个系数的统计显著性流程
  1. 设定要检验的假设
  1. 计算F统计,总是one-tailed

3. 根据指定的显著性水平,以及k和n-k-1查表求 4. 判断结果,如果, reject , 得出结论

某个回归系数的置信区间

[估计的回归系数-(critical t)(系数标准差),估计的回归系数+(critical t)(系数标准差)]

24.3 解释F-statistic

用来检验所有系数是不是显著性,是单尾测试

24.4 解释引入多元系数的单一限制测试

把多元线性方程转换为单一系数来检验

需要使用statistical software package

24.5 解释多元系数的confidence set

ANOVA table会给出每个X的standard error,t-statistic,p-value,和coefficient

则可以算出每个的置信区间: [Coeff-(critical t)(系数标准差),Coeff+(critical t)(系数标准差)]

24.6 识别多元线性回归中的omitted variable

忽略一个变量会导致回归系数biased和inconsistent, 这样对假设检验和模型预测上没有信心 忽略的变量有2个条件: 1. omitted variable是Y的determinant 2. omitted variable至少和一个X相关

24.7 解释多元回归中的

具体含义,计算和解释见23.6

一些陷阱: 1. 如果增加一个X来提高,那么这个X的系数不需要统计显著 2. 可能会算出一个很高的,但是不是Y移动的根本原因 3. 如果很高,我们不能假设找到了所有的X 4. 度量不能得出,最多或最少的X被选中了

restricted least squares models 1. 故意忽略一些X得到一个X1的回归模型,计算X1的restricted 2. 不忽略一些X得到一个包含X1回归模型,计算X1的unrestricted 3. 用F-test来检验两个模型是否同方差

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 馔玉阁 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 21. 单变量线形回归
    • 21.1 描述如何用线形回归分析经济变量上的依赖和非依赖关系
      • 21.2 解释一个population regression function,regression coefficient,parameter,slope,intercept,error term
        • 21.3 说明一个sample regression function
          • 21.4 描述线形回归的关键属性
            • 21.5 定义OLS回归,计算intercept和slope
              • 21.6 描述OLS的3个关键假设
                • 21.7 总结使用OLS的好处
                  • 21.8 描述OLS估计值的属性和样本分布,解释通用一致估计值的属性
                    • 21.9 说明ESS,TSS和RSS,standard error of regression,regression
                      • ESS
                      • TSS
                      • RSS
                      • Coefficient of determination
                      • SER
                    • 21.10 说明OLS回归的结果
                    • 22 单变量线形回归假设检验
                      • 22.1 计算解释回归系数的置信区间
                        • 22.2 解释P-value
                          • 22.3 解释回归系数的假设检验
                            • 22.4 评估homoskedasticity和heteroskedasticity的影响
                              • 22.5 定义OLS是BLUE的条件
                                • 22.6 解释Gauss-Markov理论和它的限制
                                  • 22.7 应用和解释当样本很小时t-statistic
                                  • 23 多变量线形回归
                                    • 23.1 定义和解释omitted变量偏差,描述定位这种偏差的方法
                                      • 23.2 区分sigle和multiple regression
                                        • 23.3 解释多元回归的斜率系数
                                          • 23.4 描述多元化回归的同方差和异方差
                                            • 23.5 在一个多元回归中描述OLS估计值
                                              • 23.6 计算和解释多元回归的合适度量
                                                • Standard Error of Regression是用回归公式预测Y的标准差
                                                • 决定系数
                                                • Adjusted 的推算过程:
                                              • 23.7 解释多元线性回归的假设
                                                • 23.8 解释不完美和完美多重共线性和他们的影响
                                                • 24 多变量线形回归假设检验
                                                  • 24.1 构建,应用和解释在多元线性回归中单个系数的假设检验和置信区间
                                                    • 多元假设线性回归检验某个系数的统计显著性流程
                                                    • 解释P-value
                                                  • 24.2 构建,应用和解释在多元线性回归中多个系数的假设检验
                                                    • 多元假设线性回归检验多个系数的统计显著性流程
                                                    • 某个回归系数的置信区间
                                                  • 24.3 解释F-statistic
                                                    • 24.4 解释引入多元系数的单一限制测试
                                                      • 24.5 解释多元系数的confidence set
                                                        • 24.6 识别多元线性回归中的omitted variable
                                                          • 24.7 解释多元回归中的
                                                          领券
                                                          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档