首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

没数据,没SPSS,如何轻松获得生存分析结果?

生存分析,顾名思义是用来研究个体的存活概率与时间的关系的方法。通俗来讲,“一个人可以活多久”这个问题,纵是扁鹊华佗在世亦不能做解,而利用现有样本的生存资料,通过生存分析即可推断样本活过一定时间的概率。

生存分析本质上就是个回归分析【回归分析?简单来说,就是给定一些已知样本的自变量X和对应的结果变量Y,回归分析算法会计算出Y和X之间的关系公式。比如最简单的一元线性回归算法,公式是这个样子:Y=aX+b。再来一个新的样本,得知其自变量X的情况,结果Y自然就预测出来了】。那么问题来了,为什么不用普通的回归算法推断生存概率呢?因为生存分析中的结果变量有点不一样,它不仅考察生存事件的结果,同时还要考察事件出现的时间。也就是说,生存分析的结果变量有两个,一个是事件状态,一个是时间

临床研究中通常指患者死亡或疾病复发等。敲黑板!SPSS分析时定义事件要选死亡!

普通回归算法只能hold住完全数据,即发病到死亡的时间完整记录;由于失访或因其他原因导致的死亡(删失数据),或随访结束时观察对象仍存活而无法获得其生存时间(截尾数据),都是不完全数据,这时候普通回归算法就搞不定啦

生存分析常用的方法有寿命表法、Kaplan-Meier法和Cox回归。在仅考虑单因素的情况下,通常多用Kaplan-Meier法(如图1);若需要综合分析多个因素对生存时间分布的影响,一般使用Cox回归来分析。生存分析可以用的工具也有不少,比如SPSS、R和SAS。SPSS的教程推荐下面这个,目前小编看过的最好的SPSS教程和结果解读,没有之一:

图1 Gene Matrix 绘制的生存分析函数图

图1 比较了Low和High两组之间的生存时间分布。HR是风险比,指的是实验组(High)所产生的风险率与对照组(Low)所产生的风险率的比值;Logrank指的是生存分析所使用的显著性检验方法。

生存分析最重要的还是样本,临床样本不足是一个令大多数临床医生头疼的事情。再推荐一个数据库,The Cancer Genome Atlas (TCGA),目前最为综合全面的癌症病人相关组学数据库之一,收录了33种人类癌症的临床病理数据、mRNA表达量、miRNA表达量、甲基化等各种数据。现在 TCGA 已并入 Genomic Data Commons Data Portal(GDC),数据下载烦烦烦,所幸样本并没有什么增加,下载数据还可以去下面这个链接偷个懒:

图2 TCGA生存分析应用图标

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181227A130M000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券