dependent = explained variable 已解释的 independent = explanatory variable 说明变量
使用scatter plot画出两个变量的散点图来分析关系
,intercept coefficient,截距,X为0时的期望值 ,slope coefficient,斜率,X变动多少,Y变动多少 ,error term,线形关系没法解释的噪音
用样本数据来得到regression function
, residual, 和很接近,但不相等
假设存在满足线形关系的参数,但变量可能是也可能不是线形关系
OLS Ordinary least Squares:让残差平方最小的intercept和slope
需要知道的信息要有,X,Y的均值,方差,相关系数
, 残差不依赖于X
在实践中使用很广泛,OLS展现了令人满意的属性
OLS estimators exhibit desirable properties of an estimator
OLS estimator是随机变量,所以有自己的样本分布
针对一个总体,随机抽取多个样本, 每个样本都用OLS的到估计值, 然后用这些估计值用来估计总体参数
unbiased and consistent
如果估计值的期望等于被估计的参数, 而且随着样本的增加,估计值也越来越准确, 那么估计值是unbiased和consistent
TSS=ESS+SSR
Explained sum of square 回归线上的点到Y均值的距离平方
Total sum of square 实际的点X到Y均值的距离平方
Residual sum of square,也叫SSE sum of squared error 实际的点X到回归线的距离平方
correlation coefficient:
Standard error of regression 是回归线中residual的标准差,SER越小,说明回归拟合的越好
假设确定的条件存在, 一个总体未知的OLS回归的结果可以用来描述dependent和independent变量之间的关系
P-value是null假设可以被拒绝的最小显著性水平 common level 是5%
使用n-2作为degree of freedom
一般为了测试独立变量X能否解释非独立变量Y, 会假设B1=0,然后根据样本计算t值 如果t值不在的置信区间内, 结论是B1不等于0,两个变量的斜率是显著的
异方差的影响: 1. b的标准差不可靠 2. 不受到影响 3. 如果b的标准差很小,但是不被影响,那么t结果就会很大而导致null hyphthesis经常被reject 4. 如果b的标准差过大,那么会减少null hypothesis的reject
如果线形回归假设是真, 而且regression error是同方差的, OLS是best linear unbiased estimator
Gauss-Markov理论说OLS estimator有如下特性: 1. 估计的b有最小的方差 2. 估计的b基于线形 3. 估计的b是无偏的,样本均值的期望等于总体 4. b的方差也是无偏的,样本方差的期望
Limitation: 在实践中条件很难满足,尤其是异方差情况下
当样本很小时,我们必须假设是线性回归的,error term是同方差的,而且是正态分布的
Omitted Variable bias的两个条件 1. 忽略的变量和X的移动有关系 2. 忽略的变量是Y的决定变量
通过测试上面两个条件来定位是否有遗漏的变量
multiple regression:有多个自变量的回归关系
在multivariate regression中,一个X的slope coefficient描述的是保持其他参数不变,看一个X和Y的关系。
如果估计的b0,b1,b2让SSR最小,那么就是OLS estimator
n是样本数量,k是多元X的个数
由一组X决定的回归线到Y均值距离/Y实际值到Y均值的距离
会随着X数量的增加而增加,这是一个问题
Adjusted 可以做到不随X数量的增加而变化, 比R2小
ANOVA Table:
df | Sum Squared | Mean Squared | |
---|---|---|---|
Explained | k | ESS | ESS/k |
Residual | n-k-1 | SSR | SSR/(n-k-1) |
Total | n-1 | TSS | TSS/(n-1) |
multicollinearity的影响: 会导致错误的得出一个变量不显著,但是实际显著的结论。
有病被诊断无病,假阴性,Type II error
, 得出结论
是可以拒绝H0的最小显著水平
3. 根据指定的显著性水平,以及k和n-k-1查表求 4. 判断结果,如果, reject , 得出结论
[估计的回归系数-(critical t)(系数标准差),估计的回归系数+(critical t)(系数标准差)]
用来检验所有系数是不是显著性,是单尾测试
把多元线性方程转换为单一系数来检验
需要使用statistical software package
ANOVA table会给出每个X的standard error,t-statistic,p-value,和coefficient
则可以算出每个的置信区间: [Coeff-(critical t)(系数标准差),Coeff+(critical t)(系数标准差)]
忽略一个变量会导致回归系数biased和inconsistent, 这样对假设检验和模型预测上没有信心 忽略的变量有2个条件: 1. omitted variable是Y的determinant 2. omitted variable至少和一个X相关
和
具体含义,计算和解释见23.6
一些陷阱: 1. 如果增加一个X来提高,那么这个X的系数不需要统计显著 2. 可能会算出一个很高的,但是不是Y移动的根本原因 3. 如果很高,我们不能假设找到了所有的X 4. 度量不能得出,最多或最少的X被选中了
restricted least squares models 1. 故意忽略一些X得到一个X1的回归模型,计算X1的restricted 2. 不忽略一些X得到一个包含X1回归模型,计算X1的unrestricted 3. 用F-test来检验两个模型是否同方差