又是一篇signature的文章,不过文章重点不在是mRNA了,而是我们的科研热点lncRNA。
一
数据集的下载
5个GEO数据库非小细胞肺癌数据集下载和TCGA肺癌数据集的下载,其中四个GEO数据集用来做训练数据集,TCGA和另外一个GEO数据集做验证数据集。
注意点
这些GEO数据集几乎全部都是mRNA芯片数据,作者是怎么对应到lncRNA呢?这个便是文章的一个含蓄未透漏给大家的点,作者实际上是做了重注释,从而获得lncRNA的对应信息。
二
病人筛选
作者不是简简单单的直接将癌症和正常患者做差异,而是最开始做了病人筛选,作者认为老年人患者中这种疾病最需要关注,因此筛选出60岁以上的患者,纳入下一步研究,并进行差异分析。
三
预后相关的lncRNA识别
作者首先对差异的lncRNA进行单变量cox分析,筛选出11个lncRNA,在进行多变量cox分析(adjusted by gender, pathological subtypes , smoking status and AJCC stage),最终识别出8个lncRNA。
四
构建预后模型
作者采用线性组合构建了预后相关模型,并进行了相关的生存分析,发现高风险的预后较差,低风险的预后好。最后的ROC接近0.7,其实还不算高哦
五
其它信息展示
从下图可以看出作者的绘图功底还是很厉害的,各个图都比较抢眼,这可能也是作者的文章一个发点(如果你也想自己绘图,可以在后台回复“R绘图”)。
六
模型验证
接着作者对模型进行验证,就拿TCGA和另外一个GEO数据集去验证模型的稳定性,结果发现在验证数据集中都有生存差异,这下就觉得文章有谱了。
七
多变量cox分析
为了证明这个signature是一个独立的预后因子,作者进行了常规的多变量cox分析如下:
八
分层分析
针对AJCC stage的不同阶段,作者在训练数据集和验证数据集中分别进行了生存分析,发现stage I阶段生存有差异,这也是作者的一个小发现。
九
功能分析
作者利用TCGA数据集进行共表达分析,寻找这8个lncRNA的靶基因,筛选条件为(Pearson coefficient > 0.4, P < 0.01),接着采用metascape富集分析,关于metascape网站的操作,我们有专门的的帖子讲解:DAVID&Metascape:专注于基因功能注释和富集通路分析的网站、Metascape:专门为生物学者设计的基因列表分析网站。
OK,这个文章就结束了,这篇文章思路非常清晰,以lncRNA为切入点来构架预后模型,整个流程和我们之前做预后的流程几乎一样,最后大家是不是看的有点小激动?那就赶快去试一下吧!
·end·