小伙伴们大家好,EasyMining算法包小讲堂又开讲啦!
今天要学习的是生存分析(survival analysis),生存分析是临床医学中非常重要的一类模型,其数学核心比较复杂,我们在此文中不会讲述。本文只需要让大家了解什么是生存分析,以及如何亲自实现一个生存分析就可以啦。
首先我们了解一下生存分析的概念,生存分析是研究患者的寿命超过某一时间的概率。
那么什么地方需要使用生存分析呢?
例如,在医学中,特别是慢性非致死性疾病,医生往往需要了解这类疾病的患者在接下去的一个时间段内(肿瘤患者一般以3、5年为时间段)死亡或者复发等不良反应的发生情况。这时生存分析中的生存曲线就能够很好的解决这样的实际问题了。
上图就是著名的 KM 曲线(Kaplan–MeierCurve)也叫生存曲线。
我们展示一下生存曲线制作三部曲:
首先,纳入一群患者作为初始入组样本;
然后,每隔一个固定时间间隔对这群样本进行随访,并统计出发生不良事件的人数占当前总人数的百分比(病死、复发、感染等等);
最后,根据统计出的不良事件人数可以反过来算出每个时间点的存活概率(存活概率= 1 – 发生率),将每个时间点的存活率描点绘制成一条曲线,这样生存曲线就做出来了。
下面再给大家解释一下上图的意思。
横轴代表了时间,上图中我们并没有注明时间单位,因为时间尺度可以根据不同的疾病选择不同的时间间隔,例如骨科随访可能是按1月为单位,肿瘤科随访可能就是按1年为单位。因此,横轴时间间隔的选择是灵活的,根据随访设计进行设置,当然也可以选择常规的按照1小时、1天、1周等进行设置。
纵轴代表了存活率,单位是 %,图中曲线上的点表示为对应的随访时间下随访患者的存活概率。
如此,我们说这名患者存活50 个时间长度时,由上图可以读出其存活概率为61% 。曲线周围的蓝色阴影部分为95%置信区间。
嗯~~挺简单的。
生存分析这样就结束了?
还没有呢,接下来介绍的才是临床医学中最重要的一个分析技术。它就是 COXph ( COX比例回归模型),或者叫它风险比例回归模型。我们以下简称为 COX。
COX 技术非常类似于前面我们讲过的逻辑回归,其实,在很多地方这两种方法是一样的,即都是回归技术,几乎一样的公式构造,一样的结果解释,只不过逻辑回归中提到风险因素用 OR(RR) ,而COX使用的是 HR,但是它们的解释都是:变量X相对其参考基线的危险倍数,大于 1 就是危险因素,小于 1 就是保护因素。
既然COX跟逻辑回归这么类似,为什么要单独拿出来讲呢?
因为它们两种方法有一个巨大的差别,就是分析的问题是否带有时间因素。如果分析断面的对比问题,那么就使用逻辑回归; 如果分析的是随着时间变化的对比问题,那么一定要使用COX。
如何实现COX呢?
当然是用我们无所不能的EASYMINING啦。
1、打开EASYMINING系统,在我的工作台中选择数据集后,选择下图红圈内容
2、点击确定进入参数选择
a. 选择结局指标
b. 选择时间轴变量
3、提交后,就可以查看COX的结果了,如下图
今天的算法包就介绍完毕了,是不是很简单呢?小伙伴们自己也来试试吧。
了解更多详情
官方网址:https://www.taemine.com
(文中部分图片来自网络)
领取专属 10元无门槛券
私享最新 技术干货