现在又有人提出来一个新的问题,如下:
根据基因表达量的中位值把样本分成高低表达量的组别,然后做生存分析是比较符合大家的直觉的。
如果这个时候生存分析结果不具有统计学显著性,而大家又的确感兴趣这个基因在这个癌症的临床意义,会尝试调整分组指标,这也就是为什么网页工具会提供调整阈值的窗口,比如调整为如下所示:
image-20190515111829160
你会惊奇的发现显著了!!!
但是实际上这样30%的阈值来进行分组的操作一定会受到审稿人质疑,基本上没有人这样操作,如果调整为25%的阈值就会发现马上又不显著了。
所以这样的KM分析是有弊端的!
COX分析就是排除一下样本其它信息的干扰之后的生存分析,这个时候网页工具能做的很有限,我们需要下载临床数据在R里面完成这个分析,如果你看了我的视频,就应该是知道至少下面两个临床信息是值得信赖的。
打开Rstudio,接下来就开始我们的表演吧!
image-20190515112010105
首先制作网页工具同样的图:
a=read.csv('BRCA_5163_50_50.csv')
head(a)
a$event=ifelse(a$Status=='Alive',0,1)
library(survival)
library(survminer)
sfit <- survfit(Surv(Days, event)~Group, data=a)
ggsurvplot(sfit, conf.int=F, pval=TRUE)
出图如下: