专栏首页生信技能树第41周生信文献分享:肝癌复发的CpG甲基化信号特征

第41周生信文献分享:肝癌复发的CpG甲基化信号特征

发表于2017年,杂志是 JOURNAL OF CLINICAL ONCOLOGY 影响因子26.303 , 文章是 CpG Methylation Signature Predicts Recurrence in Early-Stage Hepatocellular Carcinoma: Results From a Multicenter Study 亮点应该是自己的数据,然后使用了两个机器学习算法

  • LASSO, Least Absolute Shrinkage and Selector Operation;
  • SVM-RFE, Support Vector Machine-Recursive Feature Elimination;

前面我们讲解了一篇2013年多组学数据探索乳腺癌细胞系药物敏感性使用的也是两个机器学习算法,不过是LS-SVM和RF,但是也有借鉴意义。

课题设计

自己的450K甲基化芯片数据上传到了:GSE75041

本项目共纳入 576 patients with Early-stage hepatocellular carcinoma (E-HCC) ,其中

  • 66 tumor samples were analyzed using the Illumina Methylation 450k Beadchip.
  • internal cohort (n = 141) and two external cohorts (n = 191 and n =104).

也就是先小队列做450K拿到感兴趣的甲基化位点,然后扩大队列只测量感兴趣的甲基化位点证明自己拿到的位点是有临床价值的,整体课题设计如下:

项目纳入的病人来源:

  • 347 E-HCC samples at the Sun Yat-sen University Cancer Center (SYSUCC)
  • 295 samples at three independent centers as follows:
  • 191 samples from the First Affiliated Hospital of Sun Yat-sen University
  • 57 samples from Guangzhou Medical University Cancer Center (GZMUCC)
  • 47 samples from the First Affiliated Hospital of Anhui Medical University (AHMUFH).

文章的introduction部分肯定是介绍 E-HCC疾病的重要性,还有甲基化信号的重要性。

当然,也不落俗套的在 The Cancer Genome Atlas (TCGA) database 数据库进行验证。

数据处理

首先,复发与否的66个肿瘤样本数据找差异甲基化位点,得到 a list of 2,550 differential CpGs

然后使用 LASSO algorithm to identify a set of 30 CpGs

接着使用 SVM-RFE algorithm and selected a set of 30 CpGs

两个算法有14个CpG位点的交集,如下图所示:

其中并集是46个,可以看热图如下:

继续使用 penalized Cox regression model ,最后缩小到3个甲基化位点:

  • cg20657849, SCAN domain containing 3 (SCAND3)
  • cg19406367, Src homology 3-domain growth factor receptor-bound 2-like interacting protein 1 (SGIP1)
  • cg19931348 ,peptidase inhibitor 3 (PI3)

算法的效果如下;

同时也根据这3个甲基化位点,构建了风险模型公式:risk score = (0.104 × methylation level of SGIP1) + (−1.125 × methylation level of SCAND3) + (−0.085 × methylation level of PI3).

并且称之为: a methylation-based signature for patients with E-HCC (MSEH)

然后就可以去验证集里面去看看预测效果。

生存分析验证模型效果

在开头我们介绍的数据集里面,作者都使用了生存分析,很显著的发现这3个甲基化位点组成的a methylation-based signature for patients with E-HCC (MSEH) 具有很好的区分效果,如下图:

因为作者验证的数据集已经有3个了,所以在TCGA的验证作者只是放在附件。

In addition, the predictive value of MSEH was validated further in the TCGA data. MSEH successfully discriminated 125 patients with TNM stage I into high-risk and low-risk groups in terms of both RFS and OS (P , .001, P = .043, respectively; Data Supplement).

感兴趣的朋友也可以很容易去下载TCGA的肝癌的甲基化信号矩阵,来根据这3个甲基化位点组成的a methylation-based signature for patients with E-HCC (MSEH) 来进行验证。

本文分享自微信公众号 - 生信技能树(biotrainee)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一个甲基化芯片数据被挖掘好几次(学徒作业)

    很简单的设计,就是450K甲基化芯片:DCIS (n=40) and adjacent normal (n=15) ,另外的信息技术:Among 40 DCIS...

    生信技能树
  • BRCA的甲基化信号分型(逆向收费读文献2019-11)赠送一篇文章思路

    2年前,考虑到科研路的艰难,我组建了文献阅读小组,广邀粉丝参与,从自身做起,开始学习及分享!感兴趣可以点击下面的链接跳转去了解详情:

    生信技能树
  • 福建医科大学检测三千卵巢癌患者的BRCA基因

    这个同等规模正常人的频率,可以在其它癌症患者的BRCA基因基因筛查研究用上吧,比如前面的:华西医院检测五百多乳腺癌患者的BRCA基因

    生信技能树
  • 批量预测转录因子(TF)和转录因子结合位点(TFBS)

    在真核生物中,基因的编码序列在DNA链上是不连续的,被非编码序列隔开。这些基因,只有在转录因子结合到其特定的DNA序列上后,基因才开始表达。那么,我们要了解的是...

    阿凡亮
  • 中国版四因子模型,加入情绪指标,6不6?

    股票投资组合的收益率由何种因素决定?这个经典的问题,驱使着一代又一代的金融大师们,持续地对股票市场进行研究。最早的资本资产定价模型(CAPM模型)其实在1961...

    量化投资与机器学习微信公众号
  • Java 工程师成神之路 | 2019正式版

    JVM 还支持哪些语言(Kotlin、Groovy、JRuby、Jython、Scala)

    乔戈里
  • 【连载】2016年中国网络空间安全年报(一)

    2016年中国网络空间安全年报 日前,由安恒信息风暴中心策划编撰的《2016年中国网络空间安全年报》重磅发布。《2016年中国网络空间安全年报》旨在从安全大数据...

    安恒信息
  • 报错:ORA-07445: exception encountered: core dump [kkqtnloCbk()+111] [SIGSEGV]

    于是又问他是所有应用都报错,还是某个报错,反馈说是一个SQL,用到了full join。我觉得这个是SQL语法问题,和3113连接断开应该没有关系啊?于是又让他...

    bisal
  • iOS中RunLoop机制浅探 原

            RunLoop这个家伙在iOS开发中,我们一直在用,却从未注意过他,甚至都不从见过他的面孔,那个这个神秘的家伙究竟是做什么的?首先,我们先来观察...

    珲少
  • 手把手教你从零搭建Python数据分析环境

    由于最近再做推荐系统的特征处理,需要借助一些工具来筛选特征。最初使用了R,R的安装很简单,而且API也很容易使用,直接就能出图。后来,发现很多人在python...

    用户1154259

扫码关注云+社区

领取腾讯云代金券