前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何用TCGA数据库DNA甲基化芯片发5分文章?

如何用TCGA数据库DNA甲基化芯片发5分文章?

作者头像
百味科研芝士
发布2019-08-15 15:30:04
1.4K0
发布2019-08-15 15:30:04
举报
文章被收录于专栏:百味科研芝士百味科研芝士

各位科研芝士的朋友好,我们今天解读一篇利用TCGA数据库中的DNA甲基化芯片分析的文章。此文18年发表在CLINICAL EPIGENETICS 杂志上,最新影响因子5.49分

下载DNA甲基化的数据

首先作者下载了TCGA数据库中(level 3)的DNA甲基化的数据,不过他下载的是Human Methylation27 BeadChip,就是27k的甲基化芯片数据,这类芯片所能捕获到的甲基化位点相对较少,主要是检测人基因组2.7万个甲基化位点。

信息下载和样本筛选

作者接着下载了这些病人的临床信息,包括年龄,性别,生存时间等,然后做了关键一步,就是样本筛选。首先对有生存时间的病人样本进行保留,接着对肿瘤病理学分期不清楚的阶段进行剔除,作者选定了(G1,GX,GB)三个分期,认为这三个分期可能会有不同的生物学行为,就对这三个分期的病人样本也剔除。最后保留了551个病人样本和27578个甲基化位点进行后续分析。

样本拆分

从上面我们可以看到,551个病人样本,数量还是十分可观的,接着作者按照2:1切分样本,2/3为训练数据集,1/3为测试数据集,用训练集训练出一个模型,测试集来验证这个模型。

识别DNA甲基化位点并建立模型

在训练数据集中,识别与病人生存率相关的DNA甲基化位点并建立模型,这个是文章具体计算过程,其实就很简单,作者实际上针对病人的整体生存时间,只进行了单变量cox分析和多变量cox分析,最后作者采用多变量分析中的逐步回归法(stepwise)成功抓取了5个重要的甲基化位点,根据他们在模型中的参数,构建了这样的一个预后风险表达式。

模型的验证与评估

接着作者对模型进行验证,就拿剩下的1/3数据集去验证模型的稳定性,以及考察模型是不是独立的预后因子,理论上大家做到这一步,就要结束了,作者为了强调自己模型的优越性,就做了下一步,也是提分的关键。

突出自己模型的优越性

作者将已经报道的biomarker和自己的biomarker在验证数据集里面进行比较,通过下面的ROC曲线来展示结果。估计这个就是打动审稿人的一块砖。

OK,这个文章就结束了,这篇文章思路非常清晰,以DNA甲基化为切入点来构架预后模型,整个流程和我们之前做预后的流程几乎一样,希望大家有所收获。 后台回复关键字:“DNA”,获取原文

·end·

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 百味科研芝士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档