【更正】分层回归

作者:菁悦 审核:X 封面:自己想吧

前言:

经常被问起分层回归是咋回事?是按照变量的水平数就行分割,然后进行分析嘛?其实不是,分层回归是对若干个自变量x进行分群组分析,主要用于模型的比较,或者说对变量重要性进行判定。

【注意】:进行分层回归时,仍然需要满足回归分析的假设条件,这些内容在前文中已有详细叙述,这里不再多讲。

我们根据案例来进行说明。

【栗子】目前大气污染越来越严重,污染物严重危害人体健康。研究者通过观察测量一些污染物(二氧化硫、氮氧化物和飘尘)的浓度,测定上述污染物浓度对环境大气污染程度的影响程度。

Step 1:打开文件,点击【分析】——【回归】——【线性】。

Step 2:将左侧的“污染程度”选到右侧“因变量”位置,将“二氧化硫”选到右侧“自变量”位置,点击【下一个】。

Step 3:将“氮氧化物”选到右侧“块”位置,点击【下一个】。

Step 4:将“飘尘”选到右侧“块”位置,点击【下一个】,点击【统计】。

Step 5:选中【估算值】、【模型拟合】、【R方变化量】,点击【继续】——【确定】。

Step 6:结果分析。

1

从“模型”栏可以看出,本研究共有3个模型。“输入的变量”栏显示该研究中每个模型较前一个模型增加的变量。

需要注意的是,模型 2和模型 3中纳入的变量都是在上一个模型基础上的。比如,模型 3是在模型 2的基础上纳入“飘尘”变量,即模型 3共纳入二氧化硫、氮氧化物、飘尘三个变量。

2

分别评价本研究中3个模型的拟合程度:R2是多层回归的重要指标,反映自变量解释因变量变异的程度。从上表可以看出,随着自变量数量的增加,模型1-3的R2逐渐增加,分别是0.866、0.939和0.955,提示各模型对因变量的影响逐渐加强。

3

为判断新增变量对回归的影响,我们需要关注下表的右半部分:

“R方变化量”栏显示的是该模型与上一个模型R2的差值,“显著性F变化量”栏显示的是该差值的统计检验的P值。以模型 1为例,如下:

模型 1是初始模型,其R2差值和R2值相同,均为0.866。R2差值具有统计学意义,P

在本研究中,模型2与模型1的差别仅在于氮氧化物变量,提示在回归中纳入氮氧化物变量后自变量对因变量变异的解释能力增加7.3%(P即纳入氮氧化物变量对对空气污染程度变化有统计学意义

模型3的R2差值为0.016,即模型3的R2值(0.955)与模型2的R2值(0.939)的差。P>0.001,即模型3的R2差值不具有统计学意义。提示纳入飘尘变量对空气污染程度变化没有统计学意义。

4

分层回归的每一个模型都相当于一个多重线性回归模型。SPSS输出ANOVA表格中包括对每一个模型的评价,一般来说,我们习惯性只汇报最终模型的结果(本研究的模型3)。

模型3纳入了二氧化硫、氮氧化物和飘尘三个变量。结果示,该模型具有统计学意义,F(3,10)=70.344,P

5

我们主要关注最终模型,即本研究中的模型3,在对回归系数进行解释时也是如此。

模型3:我们可以按照多重线性回归的分析方法对分层回归系数进行解释。连续变量的回归系数表示自变量每改变一个单位,因变量的变化情况。分类变量的回归系数表示不同类别之间的差异,详细内容参见多重线性回归。

【注意】为避免各因素间的相互干扰,把全部变量根据其所表达的数量特性进行分层,分层后回归分析的单次回归变量减少,有助于克服多变量共线性问题和伪回归。

分层回归方法既可以找出自变量和因变量相关程度,同时也不会影响自变量和因变量间关系的寻找,能够发现各层回归变量中的显著因子,研究变量间的相关性和相关程度,从而寻找各因素对因变量的影响的强弱关系 。

回复20180618可以获取今天的数据~

欢迎添加

数据分析服务微信号:LYJ_312

加入社群添加微信号:spss_shequn

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180619G0AR6A00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券