本文1741字〡17图〡预计阅读12分钟
上篇文章学习了简单线性回归的概念知识、适用条件以及模型和回归系数检验,今天学习SPSS进行简单线性回归分析。某临床医生收集了178例脑梗患者的血清总胆固醇、低密度脂蛋白数据,定量描述了二者之间线性关系(r=0.959,P<0.001),现在尝试探讨血清总胆固醇如何随低密度脂蛋白变化规律?
本文学习目录
数据基础分析
SPSS建立简单线性回归
模型基本情况和拟合效果评价
回归模型、回归系数检验
模型的残差
结论
1
数据基础分析
该医生欲探究血清总胆固醇如何随着低密度脂蛋白变化,前期进行了简单线性相关分析,Pearson积矩相关系数(r=0.959,P<0.001),血清总胆固醇和低密度脂蛋白的散点图如下所示:
通过散点图和Pearson积矩相关分析,发现血清总胆固醇和低密度脂蛋白关系密切,且存在正向线性相关关系。简单线性相关分析告诉我们二者的线性关系强度和方向,二者地位平等的。
现在该医生以血清总胆固醇为因变量,以低密度脂蛋白为自变量,建立简单线性回归方程。线性回归模型的使用条件:Line(线性、独立、正态、方差相等),目前数据已经满足线性、正态、独立的前提假设,方差是否相等?是否存在离群点?
后面我们可以根据残差直方图、P-P图和散点图判断,也可通过残差散点图进一步验证数据的线性、正态分布特征,同时也可通过残差散点图判断是否存在离群点等。
2
SPSS建立简单线性回归
分析⇒回归⇒线性
因变量(血清总胆固醇)⇒自变量(低密度脂蛋白),如果进行多重线性回归分析,自变量有多个,需要选择自变量进入模型的方法(有5种)
统计⇒回归系数(估算值,95%CI)⇒模型拟合⇒残差(判断观测值是否存在关联性),个体观测值是否独立需要依据专业判断,如果自变量存在顺序,如年发病率,可观察残差独立性检验
图⇒y轴为ZRESID⇒x轴为DEPENDNT,(ARESID为标准化残差、DEPENDNT为因变量),绘制散点图便于观察残差分布
保存⇒标准化残差,保存后便于我们观察异常值、离群点
保存(默认),可以设定自变量进入、剔除模型的F值
3
模型基本情况和拟合效果评价
输入/移除的变量,先输出自变量引入回归模型的方法,简单线性回归模型只有一个自变量,可直接看后面结果。
模型摘要,输出复相关系数R(反映模型中自变量和因变量密切程度)、决定系数R方(模型的拟合程度,和复相关系数一样存在不足,即增加的变量没有统计学意义,R方仍旧会增加,当自变量多个时,需要看校正决定系数)、校正的决定系数(越大,模型拟合效果越好)
根据Pearson积矩相关系数和决定系数R方计算公式可以看出二者关系,R方=r方,本例中R方=0.919,相关系数r=0.959(如下图所示),也等于标准化回归系数。
4
回归模型、回归系数检验
回归模型的假设检验(F检验):统计量F=2007.062,P<0.001,说明建立的回归模型具有统计学意义。
回归系数的假设检验(t检验):回归系数为1.313,t=44.800,P<0.001,95%CI为(1.252,1.371),可以认为回归系数β不等于0。
对于II型简单线性回归模型(自变量、因变量都是随机变量且均服从正态分布)来说,F检验和t检验是等价的,既有tb2=F,在本例中F=2007.062,tb=44.800。
5
模型的残差
模型残差统计描述:残差、标准化残差的最大值、最小值和平均值。
残差直方图和P-P图:可以发现总胆固醇的标准化残差服从正态分布。
标准化残差散点图:可以发现数据不存在异常点、方差相等,同时提示血清总胆固醇和低密度脂蛋白存在线性关系。
6
结论
通过标准化残差散点图、P-P图、直方图,另外根据专业和方案设计(每个病人的血清总胆固醇、低密度脂蛋白测量值相互独立),可以判断血清总胆固醇、低密度脂蛋白数据符合简单线性回归模型适用条件。
通过简单线性回归分析可知:回归系数为1.313,95%的置信区间为(1.252,1.371),经t检验,P<0.001,按照α=0.05检验水准,可以认为脑梗患者的血清总胆固醇和低密度脂蛋白存在线性回归关系,回归方程为y'=1.313x+1.136,R方=0.919。
参考文献:
1.方积乾.卫生统计学[M].第七版,北京:人民卫生出版社,2013.
—END—
领取专属 10元无门槛券
私享最新 技术干货