前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言:混合效应模型分析基于随机对照试验的重复测量资料(结局为连续型变量)

R语言:混合效应模型分析基于随机对照试验的重复测量资料(结局为连续型变量)

作者头像
数据派THU
发布2023-10-01 13:14:44
8580
发布2023-10-01 13:14:44
举报
文章被收录于专栏:数据派THU
本文约3000字,建议阅读5分钟本文介绍了利用R语言混合效应模型分析基于随机对照试验的重复测量资料。

重复测量资料在临床数据中非常普遍,常用重复测量的方差分析进行统计分析,但是经常面临的问题有:

①临床资料又常常含有缺失值,例如采用某新药治疗疾病,分别在治疗前,治疗后1月,治疗后3月测量Y指标,但由于病人依从性等原因,导致治疗3月后缺失几例数据。

②Y不满足正态性、方差齐性,且样本量不是很大。

怎么办?推荐分析神器之一:混合效应模型。本文结合文献,分享基于R语言实现混合效应分析的方法,主要采用nlme包中lme函数。

主要内容:

1.可视化不同组Hb随时间的变化趋势

2.时间作为分类变量,构建混合效应模型

3.时间作为连续变量,构建混合效应模型

4.模型1和模型2对比和选择

5.模型残差检验

文献分享

这篇文章是2021年发表在Neuroimage上,影响因子是5.8,作者观察了4个时间点,通过重复测量三个连续性指标,构建混合效应模型研究正常睡眠和睡眠不足对大脑微观结构的影响。《Sleep and sleep deprivation difffferentially alter white matter microstructure: A mixed model design utilising advanced diffffusion modelling》。

作者观察的时间点time分别是早上、晚上、第二天早上。观察的指标Y分别是INVF(神经突内体积分数),exMD(神经突外平均扩散率)和exRD(桡神经突外扩散性)。

上述折线图的横轴是时间点,纵轴是边际估计均值,每个时间点上加了误差线,这个图直观的看出两组人群各指标随时间增加的变化。

混合效应分析结果显示:

随着时间的增加,INVF 和 exRD 有显著的变化(p<0.05),exMD没有显著变化。而exMD在TP1到TP3和TP1到TP4 的时间点中存在显著的交互作用,而INVF 和 exRD没有交互作用,可以参考原文翻译。

Results from the linear mixed model revealed significant main effects of time in INVF and exRD, but not exMD (see Table 2). Further, there were significant group × time interaction effects in exMD from TP1 to TP3 and from TP1 to TP4, but not INVF and exRD.

加载R包和数据

本案例数据来自外部数据集,共计22名患者,分为组1和组2,测量的指标是血红蛋白浓度Hb,测量的时间点分别是t1,t2,t3,t4。数据概况如下表:

数据结构:自变量X是分组变量,Y指标是4个时间点重复测量Hb浓度。

研究思路:1:Hb随t(时间)的变化趋势是什么?2:组1和组2相比,Hb随t的变化趋势是否不同?

1 加载数据

注:首先需要将数据集转化为混合效应模型可分析的结构(俗称“宽数据”变为“长数据”),这部分需要先处理数据,关于数据宽变长,后面有机会再给大家整下。这里加载进来的数据是已经处理好。

2 可视化Hb随时间的变化趋势

结果解读:

图一是每个观察对象的Hb随时间的变化趋势,用两种颜色区别两组。图中每条线表示一个患者,纵坐标是Hb,横坐标是时间点。

图二是两组的Hb的估计边际均值随时间变化趋势。横坐标是时间点,纵坐标是估计边际均值,其中这个”均值”跟普通均值稍微有点差异,可以简单理解为均值。每个点上的误差线表示估计均值的标准误SE。

从以上两个图可以看出:Hb随时间呈线性上升的趋势,组2上升斜率低于组1,红色的线在绿色线下方。

3 时间作为分类变量,考察时间点和分组的交互效应

lme的参数说明:

formula:混合效应模型表达式,类似线性回归和二元逻辑回归,*表示分别考虑time,group,以及他们的交互作用。

random:设置随机效应,这里的随机效应是不同患者的随机截距效应。

method:模型参数的估计方法,有两种REML和ML。这里选择ML。‍

data:是数据集

4 模型1结果解读

模型1结果解释:

fit1返回的结果很多,

第一:最上面是模型的AIC,BIC和极大似然值;

第二:模型的随机效应,随机效应用方差表示;14.62是随机截距的误差项,6.5是残差

第三:模型的固定效应,也是我们最关注的核心分析结果。

第二列Value是回归系数,代表的是各组各时间点的均值。下面依次罗列。

Intercept: 表示组1的t1时间点的Hb的均值,是26.56;

factor(time)2,表示组1的 t2相比于t1,Hb的差值,是10.19;

factor(time)3,表示组1的 t3相比于t1,Hb的差值,是13.44;

factor(time)4,表示组1的 t4相比于t1,Hb的差值,是15.95;

group2, 表示t1时刻,组2相比于组1的Hb的差值 是-0.43;

factor(time)2:group2,交互项,表示组2的t2与t1两时点差与组1相比,差是-3.58。

factor(time)3:group2,交互项,表示组2的t3与t1两时点差与组1相比,差是-1.61。

factor(time)4:group2,交互项,表示组2的t4与t1两时点差与组1相比,差是-1.06。

根据以上的模型显示:随着时间的增加,Hb逐步增加,而组2比组1增长慢。根据模型的P值,可知,Hb随时间增加,其变化是显著的。而由交互检验P>0.05,显示组1和组2随时间的变化趋势基本一致,没有统计学差异,二者没有交互作用。

5 时间作为连续变量,考察时间点和分组的交互效应

6 模型2的结果解读

模型2结果解读‍

第一:同上;

第二:同上;

第三:模型的固定效应,也是我们最关注的核心分析结果。

第二列 Value是回归系数:

Intercept: 表示组1随时间拟合直线的截距,表示组1的t1时间点Hb的均值,是23.68;

time,表示组1随时间拟合直线的斜率,表示组1的t2相比于t1,t3相比于t2的Hb的差值,是5.11;

factor(group)2,表示t1时刻,组2相比于组1的Hb的差值 是-1.68;

time:factor(group)2,交互项,表示组2与组1相比,两条拟合直线斜率的差是-0.12。

根据以上的模型显示:随时间增加,Hb变化是显著的。而由交互检验显示,P>0.05,显示组1和组2随时间的变化趋势基本一致,二者没有交互作用。

结果和模型1完全一致。

7 模型1和模型2对比和选择

代码语言:javascript
复制
两个模型似然比检验anova(fit1,fit2)

结果解释:

模型对比:

模型1和模型2的分析结果完全一致,而模型2更加简洁的给出了两组的Hb随t变化的速度和差别,不过模型2是假使Hb随t呈线性变化,关于选择是否恰当,可以采用似然比检验模型1和模型2,如上,P=0.3941,差异不显著,说明简化的模型2可以代替模型1,本次我们选择模型2作为最终的模型,也就意味这Hb随时间变化是线性的。

如果差异显著,P<0.05,则说明不能用用直线关系代替,可以考虑引入t的平方或者三次方拟合。

模型最终结果分析:

以上的分析已经回答出一开始的两个问题:

1.Hb随着时间增加而直线上升;

2.随着时间的增加,组1的Hb增长率是5.11个单位,组2的增长率是4.99(计算5.11-0.12),但组1和组2增长的差别不显著(P=0.9282),即二者增长率一致。

8 模型残差检验

结果解释:

结果显示两种正态检验方法的P均大于0.05,说明模型的残差符合正态分布,图1是残差随机分布在直线两边,直方图显示的残差成对称的左右分布,结果均说明,模型残差符合正态分布,模型的构建是合理的。编辑:王菁‍‍‍校对:刘光栋

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-30 17:00,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档