第41周生信文献分享:肝癌复发的CpG甲基化信号特征

发表于2017年,杂志是 JOURNAL OF CLINICAL ONCOLOGY 影响因子26.303 , 文章是 CpG Methylation Signature Predicts Recurrence in Early-Stage Hepatocellular Carcinoma: Results From a Multicenter Study 亮点应该是自己的数据,然后使用了两个机器学习算法

  • LASSO, Least Absolute Shrinkage and Selector Operation;
  • SVM-RFE, Support Vector Machine-Recursive Feature Elimination;

前面我们讲解了一篇2013年多组学数据探索乳腺癌细胞系药物敏感性使用的也是两个机器学习算法,不过是LS-SVM和RF,但是也有借鉴意义。

课题设计

自己的450K甲基化芯片数据上传到了:GSE75041

本项目共纳入 576 patients with Early-stage hepatocellular carcinoma (E-HCC) ,其中

  • 66 tumor samples were analyzed using the Illumina Methylation 450k Beadchip.
  • internal cohort (n = 141) and two external cohorts (n = 191 and n =104).

也就是先小队列做450K拿到感兴趣的甲基化位点,然后扩大队列只测量感兴趣的甲基化位点证明自己拿到的位点是有临床价值的,整体课题设计如下:

项目纳入的病人来源:

  • 347 E-HCC samples at the Sun Yat-sen University Cancer Center (SYSUCC)
  • 295 samples at three independent centers as follows:
  • 191 samples from the First Affiliated Hospital of Sun Yat-sen University
  • 57 samples from Guangzhou Medical University Cancer Center (GZMUCC)
  • 47 samples from the First Affiliated Hospital of Anhui Medical University (AHMUFH).

文章的introduction部分肯定是介绍 E-HCC疾病的重要性,还有甲基化信号的重要性。

当然,也不落俗套的在 The Cancer Genome Atlas (TCGA) database 数据库进行验证。

数据处理

首先,复发与否的66个肿瘤样本数据找差异甲基化位点,得到 a list of 2,550 differential CpGs

然后使用 LASSO algorithm to identify a set of 30 CpGs

接着使用 SVM-RFE algorithm and selected a set of 30 CpGs

两个算法有14个CpG位点的交集,如下图所示:

其中并集是46个,可以看热图如下:

继续使用 penalized Cox regression model ,最后缩小到3个甲基化位点:

  • cg20657849, SCAN domain containing 3 (SCAND3)
  • cg19406367, Src homology 3-domain growth factor receptor-bound 2-like interacting protein 1 (SGIP1)
  • cg19931348 ,peptidase inhibitor 3 (PI3)

算法的效果如下;

同时也根据这3个甲基化位点,构建了风险模型公式:risk score = (0.104 × methylation level of SGIP1) + (−1.125 × methylation level of SCAND3) + (−0.085 × methylation level of PI3).

并且称之为: a methylation-based signature for patients with E-HCC (MSEH)

然后就可以去验证集里面去看看预测效果。

生存分析验证模型效果

在开头我们介绍的数据集里面,作者都使用了生存分析,很显著的发现这3个甲基化位点组成的a methylation-based signature for patients with E-HCC (MSEH) 具有很好的区分效果,如下图:

因为作者验证的数据集已经有3个了,所以在TCGA的验证作者只是放在附件。

In addition, the predictive value of MSEH was validated further in the TCGA data. MSEH successfully discriminated 125 patients with TNM stage I into high-risk and low-risk groups in terms of both RFS and OS (P , .001, P = .043, respectively; Data Supplement).

感兴趣的朋友也可以很容易去下载TCGA的肝癌的甲基化信号矩阵,来根据这3个甲基化位点组成的a methylation-based signature for patients with E-HCC (MSEH) 来进行验证。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

详细步骤:用R语言做文本挖掘

目录 Part1 安装依赖包 Part2 分词处理 Part3文本聚类 Part4 文本分类 Part5情感分析 Part1 安装依赖包 R语言中中文分析的...

72912
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/6/17

链接:https://blog.twitter.com/engineering/en_us/topics/insights/2018/twittertensor...

1173
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/7/1

Building the Software 2.0 Stack by Andrej Karpathy from Tesla

1314
来自专栏AI研习社

Github 项目推荐 | 基于 PyTorch,面向 AI 系统加速研究与开发的深度学习框架

TorchFusion 基于 PyTorch 并且完全兼容纯 PyTorch 和其他 PyTorch 软件包,它供了一个全面的可扩展训练框架,可以轻松用开发者的...

1222
来自专栏CDA数据分析师

史上最全!国外程序员整理的机器学习资源

本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。 C++ 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 Ope...

23810
来自专栏企鹅号快讯

2017年深度学习必读31篇论文

新智元报道 作者:Kloud Strife 译者:刘光明,费欣欣 【新智元导读】2017年即将擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的...

20510
来自专栏机器之心

深度 | 生物神经网络基础:从尖峰放电神经元谈起

2242
来自专栏数据结构与算法

BZOJ4407: 于神之怒加强版(莫比乌斯反演 线性筛)

感觉好迷茫啊,很多变换看的一脸懵逼却又不知道去哪里学。一道题做一上午也是没谁了,,

1162
来自专栏专知

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

2302
来自专栏新智元

【AI可能真的要代替插画师了】复旦同济用cGAN生成动画人物

【新智元导读】复旦大学、同济、CMU等的研究者使用cGAN生成各种属性的二次元人物头像,效果非常令人印象深刻。生成的图片质量非常之高,本文作者认为这项工作如果加...

4015

扫码关注云+社区