2.2 线形回归

21. 单变量线形回归

21.1 描述如何用线形回归分析经济变量上的依赖和非依赖关系

dependent = explained variable 已解释的 independent = explanatory variable 说明变量

使用scatter plot画出两个变量的散点图来分析关系

21.2 解释一个population regression function,regression coefficient,parameter,slope,intercept,error term

,intercept coefficient,截距,X为0时的期望值 ,slope coefficient,斜率,X变动多少,Y变动多少 ,error term,线形关系没法解释的噪音

21.3 说明一个sample regression function

用样本数据来得到regression function

, residual, 和很接近,但不相等

21.4 描述线形回归的关键属性

假设存在满足线形关系的参数,但变量可能是也可能不是线形关系

21.5 定义OLS回归,计算intercept和slope

OLS Ordinary least Squares:让残差平方最小的intercept和slope

需要知道的信息要有,X,Y的均值,方差,相关系数

21.6 描述OLS的3个关键假设

, 残差不依赖于X

  1. 所有X,Y是i.i.d的,independent and identically distributed
  2. large outlier很大的异常值被观测到的概率很低

21.7 总结使用OLS的好处

在实践中使用很广泛,OLS展现了令人满意的属性

OLS estimators exhibit desirable properties of an estimator

21.8 描述OLS估计值的属性和样本分布,解释通用一致估计值的属性

OLS estimator是随机变量,所以有自己的样本分布

针对一个总体,随机抽取多个样本, 每个样本都用OLS的到估计值, 然后用这些估计值用来估计总体参数

unbiased and consistent

如果估计值的期望等于被估计的参数, 而且随着样本的增加,估计值也越来越准确, 那么估计值是unbiased和consistent

21.9 说明ESS,TSS和RSS,standard error of regression,regression

TSS=ESS+SSR

ESS

Explained sum of square 回归线上的点到Y均值的距离平方

TSS

Total sum of square 实际的点X到Y均值的距离平方

RSS

Residual sum of square,也叫SSE sum of squared error 实际的点X到回归线的距离平方

Coefficient of determination

correlation coefficient:

SER

Standard error of regression 是回归线中residual的标准差,SER越小,说明回归拟合的越好

21.10 说明OLS回归的结果

假设确定的条件存在, 一个总体未知的OLS回归的结果可以用来描述dependent和independent变量之间的关系

22 单变量线形回归假设检验

22.1 计算解释回归系数的置信区间

22.2 解释P-value

P-value是null假设可以被拒绝的最小显著性水平 common level 是5%

22.3 解释回归系数的假设检验

使用n-2作为degree of freedom

  1. 计算t
  1. 判断 如果t在设定的置信区间内,就reject,拒绝的含义是b1和B1不同

一般为了测试独立变量X能否解释非独立变量Y, 会假设B1=0,然后根据样本计算t值 如果t值不在的置信区间内, 结论是B1不等于0,两个变量的斜率是显著的

22.4 评估homoskedasticity和heteroskedasticity的影响

  • homoskedasticity:同方差性,residual的方差保持一致
  • heteroskedasticity:异方差性,residual的方差保持一致
    • 非条件异方差:e的方差变化和X有关,不导致重要问题
    • 条件异方差:e的方差变化和X无关,导致显著问题

异方差的影响: 1. b的标准差不可靠 2. 不受到影响 3. 如果b的标准差很小,但是不被影响,那么t结果就会很大而导致null hyphthesis经常被reject 4. 如果b的标准差过大,那么会减少null hypothesis的reject

22.5 定义OLS是BLUE的条件

如果线形回归假设是真, 而且regression error是同方差的, OLS是best linear unbiased estimator

22.6 解释Gauss-Markov理论和它的限制

Gauss-Markov理论说OLS estimator有如下特性: 1. 估计的b有最小的方差 2. 估计的b基于线形 3. 估计的b是无偏的,样本均值的期望等于总体 4. b的方差也是无偏的,样本方差的期望

Limitation: 在实践中条件很难满足,尤其是异方差情况下

22.7 应用和解释当样本很小时t-statistic

当样本很小时,我们必须假设是线性回归的,error term是同方差的,而且是正态分布的

23 多变量线形回归

23.1 定义和解释omitted变量偏差,描述定位这种偏差的方法

Omitted Variable bias的两个条件 1. 忽略的变量和X的移动有关系 2. 忽略的变量是Y的决定变量

通过测试上面两个条件来定位是否有遗漏的变量

23.2 区分sigle和multiple regression

multiple regression:有多个自变量的回归关系

23.3 解释多元回归的斜率系数

在multivariate regression中,一个X的slope coefficient描述的是保持其他参数不变,看一个X和Y的关系。

23.4 描述多元化回归的同方差和异方差

  • Homoskedasticity含义是对所有X,error term constant
  • Heteroskedasticity含义是error term随着X样本改变

23.5 在一个多元回归中描述OLS估计值

如果估计的b0,b1,b2让SSR最小,那么就是OLS estimator

23.6 计算和解释多元回归的合适度量

Standard Error of Regression是用回归公式预测Y的标准差

n是样本数量,k是多元X的个数

决定系数

由一组X决定的回归线到Y均值距离/Y实际值到Y均值的距离

会随着X数量的增加而增加,这是一个问题

Adjusted 可以做到不随X数量的增加而变化, 比R2小

Adjusted 的推算过程:

ANOVA Table:

df

Sum Squared

Mean Squared

Explained

k

ESS

ESS/k

Residual

n-k-1

SSR

SSR/(n-k-1)

Total

n-1

TSS

TSS/(n-1)

23.7 解释多元线性回归的假设

  1. X和Y有线性关系
  2. 两个X之间无线性关系
  3. error term的期望是0
  4. error term的方差是恒定的
  5. 一个观察的error term和另一个观察的error term无关
  6. error term 正态分布

23.8 解释不完美和完美多重共线性和他们的影响

  • Perfect multicollinearity:当一个X和另外一个X完美线性相关时就是多重共线性
  • Imperfect multicollinearity:当两个X相关,但不是完美相关时出现。

multicollinearity的影响: 会导致错误的得出一个变量不显著,但是实际显著的结论。

有病被诊断无病,假阴性,Type II error

24 多变量线形回归假设检验

24.1 构建,应用和解释在多元线性回归中单个系数的假设检验和置信区间

多元假设线性回归检验某个系数的统计显著性流程

  1. 设定要检验的假设
  1. 计算t值, 自由度是n-k-1
  1. 根据指定显著性水平和df=n-k-1,查表的到置信区间
  2. 判断结果
    • 如果t不在置信区间内,则reject

    , 得出结论

解释P-value

是可以拒绝H0的最小显著水平

24.2 构建,应用和解释在多元线性回归中多个系数的假设检验

多元假设线性回归检验多个系数的统计显著性流程

  1. 设定要检验的假设
  1. 计算F统计,总是one-tailed

3. 根据指定的显著性水平,以及k和n-k-1查表求 4. 判断结果,如果, reject , 得出结论

某个回归系数的置信区间

[估计的回归系数-(critical t)(系数标准差),估计的回归系数+(critical t)(系数标准差)]

24.3 解释F-statistic

用来检验所有系数是不是显著性,是单尾测试

24.4 解释引入多元系数的单一限制测试

把多元线性方程转换为单一系数来检验

需要使用statistical software package

24.5 解释多元系数的confidence set

ANOVA table会给出每个X的standard error,t-statistic,p-value,和coefficient

则可以算出每个的置信区间: [Coeff-(critical t)(系数标准差),Coeff+(critical t)(系数标准差)]

24.6 识别多元线性回归中的omitted variable

忽略一个变量会导致回归系数biased和inconsistent, 这样对假设检验和模型预测上没有信心 忽略的变量有2个条件: 1. omitted variable是Y的determinant 2. omitted variable至少和一个X相关

24.7 解释多元回归中的

具体含义,计算和解释见23.6

一些陷阱: 1. 如果增加一个X来提高,那么这个X的系数不需要统计显著 2. 可能会算出一个很高的,但是不是Y移动的根本原因 3. 如果很高,我们不能假设找到了所有的X 4. 度量不能得出,最多或最少的X被选中了

restricted least squares models 1. 故意忽略一些X得到一个X1的回归模型,计算X1的restricted 2. 不忽略一些X得到一个包含X1回归模型,计算X1的unrestricted 3. 用F-test来检验两个模型是否同方差

本文分享自微信公众号 - 馔玉阁(hejian_zyg),作者:和坚

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 你做的是微服务还是小单体?

    先讲一个关于微服务的小故事:第一次接触到微服务这个概念的时候,我的第一反应以为微服务就是微信提供的某种服务。那段时间正是微信生态开始爆炸繁衍的时候,全中国好像把...

    rocket
  • 为什么DDD是设计微服务的最佳实践

    在本人的前一篇文章《不要把微服务做成小单体》中,现在很多的微服务开发团队在设计和实现微服务的时候觉得只要把原来的单体拆小,就是微服务了。但是这不一定是正确的微服...

    rocket
  • ​如何应对拥挤不堪的在家办公4-执行

    (PS:本文由和坚和黄焘共同完成)前面已经介绍了如何如何通过探索区分无意义的多数和有意义的少数选项,还有如何通过排除摆脱无意义的多数,最后这篇来聊聊如何让有意义...

    rocket
  • 腾讯云 GPU 云服务器今日全量上线!

    5 月 27日,腾讯云GPU云服务器正式全量上线!本次全量上线,针对腾讯云所有开发者全量放开。

    腾讯云计算产品团队
  • 2017年IaaS云计算市场10大看点

    2016年IaaS市场出现了三足鼎立:AWS,微软Azure,谷歌云平台。这些公司为客户提供了在全球托管数据的更多选择,更多虚拟机实例大小以优化其工作负载,以及...

    静一
  • Python学习笔记(七)

    张树臣
  • Python加密服务(一)

    hashlib 哈希库模块提供了许多哈希算法的 API 支持。哈希算法在中文又被称为散列函数 / 算法,此译文中将统称哈希。想使用具体某一个哈希算法,只需要使...

    Python知识大全
  • Scoops android app多主题架构(四)

    使用Scoops ? 1:MainApp ? 使用addDayNightFlavor将一个主题设置为DayNight模式 2:在对应的主题里面配置上文本...

    用户1263308
  • 英特尔生产17个量子位超导芯片,现已交付合作伙伴

    李杉 编译自 TechCrunch 量子位 出品 | 公众号 QbitAI 英特尔量子计算项目有了新进展。 今天,英特尔宣布开发了新17个量子位的超导芯片,并且...

    量子位
  • 讲讲什么是异方差

    今天我们来讲一下异方差,在异方差以前,我们先讲一下与异方差类似另一个概念:同方差,那同方差又是什么呢?同方差 = 相同 + 方差,顾名思义就是方差相同。那方差又...

    张俊红

作者介绍

精选专题

活动推荐

扫码关注云+社区

领取腾讯云代金券