手把手教你用lncRNA预后模型发5分文章

随着生信文章爆发式的增长,高分文章越

又是一篇signature的文章,不过文章重点不在是mRNA了,而是我们的科研热点lncRNA。

数据集的下载

5个GEO数据库非小细胞肺癌数据集下载和TCGA肺癌数据集的下载,其中四个GEO数据集用来做训练数据集,TCGA和另外一个GEO数据集做验证数据集。

注意点

这些GEO数据集几乎全部都是mRNA芯片数据,作者是怎么对应到lncRNA呢?这个便是文章的一个含蓄未透漏给大家的点,作者实际上是做了重注释,从而获得lncRNA的对应信息。

病人筛选

作者不是简简单单的直接将癌症和正常患者做差异,而是最开始做了病人筛选,作者认为老年人患者中这种疾病最需要关注,因此筛选出60岁以上的患者,纳入下一步研究,并进行差异分析。

预后相关的lncRNA识别

作者首先对差异的lncRNA进行单变量cox分析,筛选出11个lncRNA,在进行多变量cox分析(adjusted by gender, pathological subtypes , smoking status and AJCC stage),最终识别出8个lncRNA。

构建预后模型

作者采用线性组合构建了预后相关模型,并进行了相关的生存分析,发现高风险的预后较差,低风险的预后好。最后的ROC接近0.7,其实还不算高哦

其它信息展示

从下图可以看出作者的绘图功底还是很厉害的,各个图都比较抢眼,这可能也是作者的文章一个发点(如果你也想自己绘图,可以在后台回复“R绘图”)。

模型验证

接着作者对模型进行验证,就拿TCGA和另外一个GEO数据集去验证模型的稳定性,结果发现在验证数据集中都有生存差异,这下就觉得文章有谱了。

多变量cox分析

为了证明这个signature是一个独立的预后因子,作者进行了常规的多变量cox分析如下:

分层分析

针对AJCC stage的不同阶段,作者在训练数据集和验证数据集中分别进行了生存分析,发现stage I阶段生存有差异,这也是作者的一个小发现。

功能分析

作者利用TCGA数据集进行共表达分析,寻找这8个lncRNA的靶基因,筛选条件为(Pearson coefficient > 0.4, P < 0.01),接着采用metascape富集分析,关于metascape网站的操作,我们有专门的的帖子讲解:DAVID&Metascape:专注于基因功能注释和富集通路分析的网站Metascape:专门为生物学者设计的基因列表分析网站

OK,这个文章就结束了,这篇文章思路非常清晰,以lncRNA为切入点来构架预后模型,整个流程和我们之前做预后的流程几乎一样,最后大家是不是看的有点小激动?那就赶快去试一下吧!

·end·

原文发布于微信公众号 - 百味科研芝士(keyanzhishi)

原文发表时间:2019-08-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券