首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据统计的理解和应用logistic回归分析案例

在上一期我们讲了logistic回归分析的策略,有很多读者朋友反馈理解比较困难,所以本我们用一个案例来解析一下神奇的logistic回归,希望能帮助大家理解。

例:某研究观察某基因对糖尿病抑郁的影响,选择了132名抑郁&糖尿病患者,另选了632名糖尿病患者,检测他们的基因表达,并整理成下表形式。

【分析思路】

步骤1:确定分析方法

该研究是诊断性研究,目的是看基因对抑郁的影响是否有统计学意义。如果该基因对抑郁的影响无统计学意义,本例研究中的两个变量均为二分类变量,分析基因对抑郁的影响既可以用χ2检验,也可以用logistic回归。χ2检验在列联表的分析已有介绍,这里采用logistic回归进行分析。

软件:SAS

结果主要有四部分。

第一部分是模型信息的简单介绍,提示因变量的水平有2个,属于二分类变量,“建模的概率为outcome=1”提示模型是对outcome=1求解。

第二部分是模型拟合优度信息。

当变量中仅含截距项(无任何自变量)时,AIC,SC,-2Logl,值分别为1174.284,1179.043,1172.281,加入自变量即基因后,三个指标的值分别变为1168.589,1178.112,1164.589,均明显降低。提示加入自变量后模型有所改善,表明基因对抑郁的影响有统计学意义。

第三部分是模型总体检验结果。

似然比检验(likelihood ratio)、得分检验(score)和Wald检验均表明,模型总的来讲有统计学意义。这里似然比检验结果实际上就是第二部分结果中包含和不包含自变量的-2LogL值之差。

*小提示:这里得分检验的χ2值等于采用χ2检验所求得的χ2值,似然比检验结果等于χ2检验中的似然比χ2值,有兴趣的朋友可自行验证。

第四部分是参数估计和危险度估计结果。

各自变量的参数估计采用的是Wald χ2检验。由于本例只有一个自变量,因此参数估计结果等同于第三部分结果中的Wald χ2检验值。参数估计结果提示,基因对抑郁的影响有统计学意义(P=0.006)。危险度估计结果显示,基因型“CC+TC”患者发生抑郁的风险是“TT” 基因型患者的 1.536 倍。

*小提示:logistic回归中参数估计与危险度估计的几种联系:参数估计中的Wald χ2值=(参数估计值/标准误)的平方;OR值=EXP(参数估计值),OR值的可信区间为EXP(参数估计值±1.96×标准误);OR值的可信区间如果不含1,则P0.05。

有了参数估计值和标准误,便可推算出P值、OR值及其可信区间,反之亦然。

— THE END —

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200518A04ONS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券