各位科研芝士的朋友好,我们今天解读一篇利用TCGA数据库中的DNA甲基化芯片分析的文章。此文18年发表在CLINICAL EPIGENETICS 杂志上,最新影响因子5.49分
一
下载DNA甲基化的数据
首先作者下载了TCGA数据库中(level 3)的DNA甲基化的数据,不过他下载的是Human Methylation27 BeadChip,就是27k的甲基化芯片数据,这类芯片所能捕获到的甲基化位点相对较少,主要是检测人基因组2.7万个甲基化位点。
二
信息下载和样本筛选
作者接着下载了这些病人的临床信息,包括年龄,性别,生存时间等,然后做了关键一步,就是样本筛选。首先对有生存时间的病人样本进行保留,接着对肿瘤病理学分期不清楚的阶段进行剔除,作者选定了(G1,GX,GB)三个分期,认为这三个分期可能会有不同的生物学行为,就对这三个分期的病人样本也剔除。最后保留了551个病人样本和27578个甲基化位点进行后续分析。
三
样本拆分
从上面我们可以看到,551个病人样本,数量还是十分可观的,接着作者按照2:1切分样本,2/3为训练数据集,1/3为测试数据集,用训练集训练出一个模型,测试集来验证这个模型。
四
识别DNA甲基化位点并建立模型
在训练数据集中,识别与病人生存率相关的DNA甲基化位点并建立模型,这个是文章具体计算过程,其实就很简单,作者实际上针对病人的整体生存时间,只进行了单变量cox分析和多变量cox分析,最后作者采用多变量分析中的逐步回归法(stepwise)成功抓取了5个重要的甲基化位点,根据他们在模型中的参数,构建了这样的一个预后风险表达式。
五
模型的验证与评估
接着作者对模型进行验证,就拿剩下的1/3数据集去验证模型的稳定性,以及考察模型是不是独立的预后因子,理论上大家做到这一步,就要结束了,作者为了强调自己模型的优越性,就做了下一步,也是提分的关键。
六
突出自己模型的优越性
作者将已经报道的biomarker和自己的biomarker在验证数据集里面进行比较,通过下面的ROC曲线来展示结果。估计这个就是打动审稿人的一块砖。
OK,这个文章就结束了,这篇文章思路非常清晰,以DNA甲基化为切入点来构架预后模型,整个流程和我们之前做预后的流程几乎一样,希望大家有所收获。 后台回复关键字:“DNA”,获取原文
·end·