直线回归
直线回归(linear regression)用直线方程表达 X和Y 之间的数量依存关系。X常作为自变量(independent variable),Y 常作为因变量(dependent variable)。
Y ˆ :是实测值Y的预测值(predicted value),是直线上点的纵坐标。
a:是回归直线在Y轴上的截距,即X=0时Y的预测值。
b:是回归直线的斜率,又称为回归系数。b>0表示Y 随X增大而增大;b<0表示Y随X增大而减小;b=0表示X与Y无直线关系。
剩余或残差( residuals ):剩余平方和或残差平方和(sum of squared residuals)
b为样本回归系数,要判断直线回归方程是否成立,需要检验总体回归系数b是否为0。
其检验假设为:
H0: b=0,即X、Y之间无直线关系
H1:b¹0,即X、Y之间有直线关系
只有当b¹0时,才能认为直线回归方程成立(具有统计学意义)。
方法一:方差分析 SS总,为Y的离均差平方和,又称总平方和。
SS回,为回归平方和,它反映在总平方和中可以用X 解释的部分。
SS剩,为剩余平方和,它反映在总平方和中无法用X 解释的部分。
SS总=SS回 + SS剩,
二、直线回归的适用条件(LINE)
1.线性 Y与X之间是线性关系。(L)
2.独立性 所有的观测值是相互独立的。(I)
3.正态性 Y服从正态分布。(N)
4.方差齐性 对于所有自变量取值,Y总体方差相等。(E)
三、应用直线回归应注意的问题
1.作回归分析要有实际意义。不能把毫无关联的 两种现象作回归分析;此外,即便有回归关系也 不一定是因果关系。
2.只能在建立回归方程时自变量取值范围内预测 因变量,不能任意外延。
3.在进行直线回归分析之前,应绘制散点图。
直线相关
一、直线相关的概念直线相关(linear correlation)用于描述具有直线关系的两个变之间的相互关系。r:相关系数,correlation coefficient,又称 为积差相关系数或Pearson相关系数 。 r用来衡 量有直线关系的两个变量之间相关的密切程度和 方向。r没有单位,-1£r£1。
二、相关系数的估计
三、相关系数的假设检验
r为样本相关系数,要判断两变量之间是否存在 相关性,需要检验总体相关系数r是否为0。
H0:r=0,即X、Y之间无直线相关关系 H1:r¹0,即X、Y之间有直线相关关系
统计量t为:
式中sr为样本相关系数的标准误。
注:只有当r¹0时,才能根据|r|的大小判断相关 的密切程度。
四、直线相关的适用条件 1.独立性所有的观测值是相互独立的。 2.正态性两个变量X、Y服从双变量正态分布 (bivariate normal distribution)。
区别
1.意义不同 相关表达两个变量之间相互关系 的密切程度和方向。回归表达两个变量之间的 数量依存关系,已知X值可以预测Y值。
2.资料要求不同 在资料要求上,回归要求因 变量Y服从正态分布;X是可以精确测量和严格 控制的变量,一般称为Ⅰ型回归。相关要求两 个变量X、Y服从双变量正态分布。这种资料若 进行回归分析则称为Ⅱ型回归。
联系
1.r与b的符号一致,同正同负
2.r与b的假设检验等价
3. 可以用回归解释相关
r 2称为决定系数(coefficient ofdetermination)决定系数反映了回归平方和占总平方和的比例,其越接近于1,回归直线拟和的效果越好。
秩相关
一、秩相关的概念
又称为等级相关。主要适用于:
1.不服从双变量正态分布而不宜作直线相关分析。
2.原始数据是用等级表示。
3.总体分布类型未知的双变量资料。
Spearman等级相关是基于秩次的非参数相关分析。 类似前述的直线相关。样本等级相关系数用rs 表示,总体等级相关系数用ρs 表示。 rs界于-1与1 之间。 rs >0称为正相关,等级相关系数绝对值越接近1,说明相关程度越密切。
二、Spearman等级相关系数的估计
三、Spearman等级相关系数的假设检验
欢迎关注