专栏首页生信菜鸟团【生信文献200篇】59 利用DNA甲基化和RNA-seq分析获得乳腺癌DNA甲基化调控基因

【生信文献200篇】59 利用DNA甲基化和RNA-seq分析获得乳腺癌DNA甲基化调控基因

00 文章信息

英文标题 Identification of epigenetic modulators in human breast cancer by integrated analysis of DNA methylation and RNA-Seq data

中文标题 DNA甲基化和RNA-seq数据的综合分析鉴定人乳腺癌的表观遗传调控

期刊EPIGENETICS

影响因子 4.523 发表时间 2018-08-07

研究领域 RNA-seq DNA甲基化 表观遗传 乳腺癌

DOI: 10.1080/15592294.2018.1469894

01 总述

研究人员将TCGA中乳腺癌的DNA甲基化数据和RNA-Seq数据与7个数据库的DNA基序信息进行整合,寻找与乳腺癌异常DNA甲基化相关的DNA结合蛋白及其结合基序。

在乳腺癌中共检测到42850个差异甲基化区域(DMRs),其中包括77298个CpG位点。在DMRs中发现了108个DNA基元,并确定了109个基因编码与这些基元结合的蛋白质。基于这些基序和基因,研究人员确定了63个甲基化调节基因,构建了63个调控基因和645个转录因子的网络,确定了20个网络模块,并发现了乳腺癌相关的通路和基因集。63个甲基化调节基因可能在乳腺癌CpG位点异常甲基化中发挥重要作用并为乳腺癌提供表观遗传标记。

02 背景

CpG islands、CpG shores、CpG open seas

CpG islands 是指G/C含量大于55%且大于500 bp的区域;

CpG shores 是CpG密度较低的区域,位于CpG岛的0 ~ 2 kb之间;

CpG open seas 是距离任何CpG岛屿4kb的区域。

甲基化和CpG

DNA中胞嘧啶碱基的甲基化主要发生在CpG dinucleotides 环境中,并在连续几轮细胞分裂中保持稳定。

在正常发育过程中,多数来自配子DNA的甲基在受精后被清除,然后在 implantation 时,出现了 denovo 甲基化修改了基因组中除CpG岛外的几乎所有CpG。implantation 后,甲基化的变化以位点特异性方式发生,可能涉及某些基因的从头甲基化或去甲基化。

在正常细胞中,大多数CpG发生甲基化。甲基化主要发生在低密度CpG区域。含有高CpG和C:G含量的基因组区域称为CpG岛,通常是未甲基化的。

然而,在人类癌细胞中,广泛的低甲基化发生在低密度 CpG 区域,特别是在相对于 LAD (lamin-associated domains)和 LOCK( large organized chromatin lysine modifications)区域块中,而高甲基化以位点特异性方式发生在 CpG 岛和 CpG shores。

由于CpG岛通常位于脊椎动物基因组的启动子区域,启动子区域CpG岛的高甲基化可以使基因的表达沉默。表观遗传沉默是编码肿瘤抑制因子、DNA修复酶和参与其他细胞/调节途径的蛋白质的基因在人类癌症中失活的一个重要机制,这意味着表观遗传沉默可能参与了癌症的开始和进展。

03 流程及数据

流程图:

具体过程:

  1. 数据预处理:对 Illumina 450K 甲基化芯片进行归一化并SVA去批次效应。
  2. 差异分析:检测肿瘤与正常组织的DMRs。
  3. 通过层次聚类确定协同调控的DMRs,并确定每个DMRs聚类中显著富集的DNA结合蛋白基序。
  4. 结合基序在DMRs中富集的蛋白的基因表达水平与DNA甲基化相关,并据此确定DMRs的甲基化调节基因。
  5. 网络分析,找出与调控基因相关的网络模块。

数据

TCGA中516个BRCA的DNA甲基化数据(level 1),及临床信息。

TCGA中498个乳腺癌RNA-seq数据(level 3)。

研究人员选择了DNA甲基化数据中的94对匹配的乳腺癌(BRCA)样本和正常组织样本进行差异分析。并且在94对配对样品(188个)中,有171 个样本同时具有 RNA-Seq 和 DNA 甲基化数据。

7个数据库:

hPDI、JASPAR、UniPROBE、StamLab、Jolma、CIS-BP、Hocomoco

利用motifDb软件对7个数据库中所有DNA结合蛋白的DNA基序检索,得到DNA基序的位置加权矩阵(PWMs)。

04 结果

Differentially methylated CpG sites in breast tumors

在94对乳腺癌(BRCA)样本和配对的正常组织样本中,发现了42,850个差异甲基化区域(DMRs),其中包括77,298个CpG位点(FDR≤10-3),12853个DMRs在肿瘤中甲基化水平高于正常组织,29997个DMRs低于正常组织。

研究人员分析了DMRs在基因组的分布,发现高甲基化DMRs与低甲基化的DMRs均在CpG open seas中富集。并且DMRs富集在gene body中,几乎不出现在启动子部分。

Motifs of DNA-binding proteins enriched in DMRs

之前研究表明,CpG位点周围DNA序列(约1000 bp)中蛋白结合基序的突变决定着CpG位点的甲基化水平。

研究人员首先进行了 DMRs聚类分析,然后搜索每个聚类中富含的 DNA 基序。

42850个DMRs被聚类为高甲基化和低甲基化两个簇。当Pearson’s correlation 阈值为0.6时,有66个clusters。

利用FIMO算法在66个聚类中的DMRs周围的1000 bp长的DNA序列中寻找富集的DNA基序。鉴定了108个DNA基序和109个与这些基序结合的蛋白质。

图2给出了由一个蛋白质结合的前10个基序和编码其结合蛋白的基因名称。除了STAT1和SP1这两个基因外,这10个基因都是甲基化调节基因。

Modulator genes for DMRs

为了确定 DNA 结合蛋白在调节 DNA 甲基化方面是否具有功能相关性,研究人员使用线性回归模型来测试编码 109 种蛋白质的基因表达水平与富含蛋白质基序的 DMR 簇中 CpG 位点的甲基化水平之间的相关性。

利用这171个样本的基因表达和DNA甲基化数据进行相关性分析。图3为产生最小P值的16个基因的相关分析结果。总之,研究人员共鉴定出79个基因的表达水平与相应DMRs的甲基化水平显著相关。

之后,研究人员用同时具有 RNA-Seq 和 DNA 甲基化数据的其余327个组织样本作为独立数据,验证79个基因的表达水平与相应DMRs甲基化水平之间的相关性。结果发现79个基因中63个的相关性在验证数据中仍然显著。因此,研究人员将63个基因命名为DNA甲基化调节基因(具体基因信息在补充文件3中)。

除 STAT1 和 SP1外,富集DMRs 的结合基序 的8 个属于 63 个甲基化调节基因。有3个基因(ESR1, FOXP1, SMAD4)曾被研究表明为癌症驱动突变的基因。

为了观察DNA甲基化调节基因的表达水平是否可以预测相应CpG位点的甲基化水平,研究人员采用多元线性回归模型,将66个DMR聚类中每个CpG位点的平均甲基化程度与结合基序在DMR聚类中富集的调控基因的表达水平拟合。

研究人员首先用训练数据拟合模型,之后通过验证集预测DMR聚类的平均甲基化水平。结果表明相关基因的表达水平具有很好的预测相应CpG位点甲基化水平的能力。

Network modules of methylation modulator genes

为了更好地了解这63个甲基化调节基因对DNA甲基化的影响,研究人员进行了网络分析。

基于 DNA 基序和基因表达数据,使用 FIMO 和 ACRANE 构建了一个由 964 个编码 DNA 结合蛋白的基因组成的网络。

由63个甲基化调节基因组成的网络,产生了一个包含 708 个基因和 1,275 个方向边缘的网络。(图4)63个甲基化调控基因表现出明显高于其他基因的外度中心性,表明这些调控基因对其他基因具有重要的调控作用。

在这个网络中,有16个基因是63个甲基化调控基因的调控基因,629个基因是63个甲基化调控基因的靶标。16个调控基因分别是ZFX、TBX1、USF2、RREB1、EGR2、SREBF2、WT1、MNT、TFAP4、ZNF740、SPIC、EGR4、SP1、CLOCK、ETV1和THRA。

癌症驱动突变的 DNA 结合蛋白的 18 个基因中有 15 个包含在 708 个基因中;它们是 TP53、MYC、GATA3、CBFB、MDM2、ESR1、FOXA1、BRCA1、CTCF、DNMT3A、FOXP1、XBP1、SMAD4、CUX1、PRDM1。

采用基于edge-betweenness 的群落检测方法获得了20个网络模块,并对甲基化调控基因扩展网络中的20个网络模块进行了检测。

在20个模块中,有16个模块中有一个或多个甲基化调节基因是中心节点,这意味着甲基化调节基因可能在调控其他基因中发挥重要作用。

为了深入了解这些网络模块的功能影响,研究人员最后从MSigDB中C2人类基因集中寻找每个模块富集通路。在FDR≤0.05的20个网络模块中,共发现29个MSigDB C2基因集富集:

本文分享自微信公众号 - 生信菜鸟团(bio_123456789),作者:EIM伟

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-08-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • BRCA的甲基化信号分型(逆向收费读文献2019-11)赠送一篇文章思路

    2年前,考虑到科研路的艰难,我组建了文献阅读小组,广邀粉丝参与,从自身做起,开始学习及分享!感兴趣可以点击下面的链接跳转去了解详情:

    生信技能树
  • 甲基化结合免疫浸润如何打造5分+SCI

    题目:NEFM DNA methylation correlates with immune infiltration and survival in brea...

    百味科研芝士
  • 人类结直肠癌单细胞多组学分析

    每个人的时间精力有限,必须优先阅读相关文献,开设这个栏目也是希望为大家推荐高质量的单细胞相关文献。如果大家对单细胞转录组感兴趣可以关注一下,哪怕每天只学一点点,...

    生信技能树jimmy
  • 甲基化的一些基础知识

    同样的策略,我们也可以应用到其它领域的知识背景快速学习,比如我们的lncRNA系列,miRNA系列,现在我们一起学习一下DNA甲基化吧。

    生信技能树
  • 肿瘤新抗原突变负荷分析

    今天跟大家分享的是七月份发表在Frontiers in Bioengineering and Biotechnology杂志(IF:3.644)上的一篇文章Ch...

    生信交流平台
  • 三维基因组学习笔记

    本周受邀来武汉菲沙基因参加三维基因组学习研讨班,所以更新该系列该领域基础知识以及一个实战项目的方方面面,测试数据以及流程软件的解说,希望大家喜欢!

    生信技能树
  • 仅用公开数据集发4+分纯生信数据挖掘

    今天和大家分享的是2020年1月发表在Cells(IF:4.366)上的一篇文章,“Computational Detection of Breast Canc...

    科研菌
  • m6A调节因子在肾透明细胞中的基因特征和预后价值:一项使用TCGA数据库的回顾性研究

    真核生物RNA可以携带100多种化学修饰,其中RNA甲基化修饰约占60%,而N6-甲基腺嘌呤(m6A)在甲基化修饰中最为普遍,占有率高达80%。从2017年至今...

    用户1359560
  • 肠癌早筛学习笔记

    我们注意到肠癌,日渐成为大家关注的话题,由于它难以被发现,并且越晚发现治疗效果越差,正逐渐成为大家关注的焦点。最近一直在关注肠癌早筛方面的内容,查阅了一些资料,...

    用户1075469
  • 23分多组学文献:胃肠腺癌的分子比较分析

    今天和大家分享一篇发表在cancer cell上的文章,影响因子23.916,这是一篇多组学分析文章。

    百味科研芝士
  • 单细胞RNA测序综述汇总—肿瘤研究的新工具

    各种形式的肿瘤内异质性和复杂性会影响抗肿瘤治疗的疗效,导致治疗耐药性和转移。而近年来兴起的单细胞测序技术,结合数据整合方法的创新,使得精细理解肿瘤及肿瘤微环境中...

    生信技能树jimmy
  • RNA甲基化

    DNA甲基化大家肯定都不陌生,而这几年却发现了RNA甲基化的呼声甚至比DNA甲基化更高。那RNA甲基化到底是什么呢?

    生信交流平台
  • 如何用好公开数据库多种组学数据?

    今天跟大家分享的是2020年3月发表在Epigenomics(IF:4.112)杂志上的一篇文章"Multi-omics analysis based on i...

    科研菌
  • 新思路!27分Nature子刊教你分析肿瘤线粒体基因组

    今天和大家分享的是2020年3月发表在Nature genetics(IF:27.603)上的一篇文章Comprehensive molecular chara...

    生信菜鸟团
  • 单细胞时代 || NGS技术实现

    Single-Cell RNA Sequencing and Its Combination with Protein and DNA Analyses

    生信技能树jimmy
  • 毛宗万/谭彩萍Angew:线粒体靶向的Re(I)配合物通过干预代谢和铁稳态编码癌症表观基因组

    癌细胞的发展和恶性与表观基因组的变化密切相关。在这项工作中,中山大学生物无机与合成化学教育部重点实验室毛宗万和谭彩萍设计了结合临床铁螯合剂地拉罗司(DFX)的线...

    王开元
  • 【生信文献200篇】21 使用单细胞多组学探索TNBC病人的新辅助化疗疗效

    英文标题:Chemoresistance Evolution in Triple-Negative Breast Cancer Delineated by Si...

    生信菜鸟团
  • Cell Research丨朱冰组系统阐述衰老或肿瘤中DNA甲基化维持过程精细控制的分子基础

    DNA甲基化作为一种重要的表观遗传修饰,在调控基因的时空特异性表达方面发挥着重要的作用,包括诸如X染色体失活、基因组印记和重复序列抑制等重要生命过程【1】。DN...

    生信交流平台
  • 这类数据的预后模型你也可以试一试

    A DNA methylation signature to improve survival prediction of gastric cancer

    科研菌

扫码关注云+社区

领取腾讯云代金券