前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【生信文献200篇】59 利用DNA甲基化和RNA-seq分析获得乳腺癌DNA甲基化调控基因

【生信文献200篇】59 利用DNA甲基化和RNA-seq分析获得乳腺癌DNA甲基化调控基因

作者头像
生信菜鸟团
发布2021-08-25 15:17:27
1K0
发布2021-08-25 15:17:27
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

00 文章信息

英文标题 Identification of epigenetic modulators in human breast cancer by integrated analysis of DNA methylation and RNA-Seq data

中文标题 DNA甲基化和RNA-seq数据的综合分析鉴定人乳腺癌的表观遗传调控

期刊EPIGENETICS

影响因子 4.523 发表时间 2018-08-07

研究领域 RNA-seq DNA甲基化 表观遗传 乳腺癌

DOI: 10.1080/15592294.2018.1469894

01 总述

研究人员将TCGA中乳腺癌的DNA甲基化数据和RNA-Seq数据与7个数据库的DNA基序信息进行整合,寻找与乳腺癌异常DNA甲基化相关的DNA结合蛋白及其结合基序。

在乳腺癌中共检测到42850个差异甲基化区域(DMRs),其中包括77298个CpG位点。在DMRs中发现了108个DNA基元,并确定了109个基因编码与这些基元结合的蛋白质。基于这些基序和基因,研究人员确定了63个甲基化调节基因,构建了63个调控基因和645个转录因子的网络,确定了20个网络模块,并发现了乳腺癌相关的通路和基因集。63个甲基化调节基因可能在乳腺癌CpG位点异常甲基化中发挥重要作用并为乳腺癌提供表观遗传标记。

02 背景

CpG islands、CpG shores、CpG open seas

CpG islands 是指G/C含量大于55%且大于500 bp的区域;

CpG shores 是CpG密度较低的区域,位于CpG岛的0 ~ 2 kb之间;

CpG open seas 是距离任何CpG岛屿4kb的区域。

甲基化和CpG

DNA中胞嘧啶碱基的甲基化主要发生在CpG dinucleotides 环境中,并在连续几轮细胞分裂中保持稳定。

在正常发育过程中,多数来自配子DNA的甲基在受精后被清除,然后在 implantation 时,出现了 denovo 甲基化修改了基因组中除CpG岛外的几乎所有CpG。implantation 后,甲基化的变化以位点特异性方式发生,可能涉及某些基因的从头甲基化或去甲基化。

在正常细胞中,大多数CpG发生甲基化。甲基化主要发生在低密度CpG区域。含有高CpG和C:G含量的基因组区域称为CpG岛,通常是未甲基化的。

然而,在人类癌细胞中,广泛的低甲基化发生在低密度 CpG 区域,特别是在相对于 LAD (lamin-associated domains)和 LOCK( large organized chromatin lysine modifications)区域块中,而高甲基化以位点特异性方式发生在 CpG 岛和 CpG shores。

由于CpG岛通常位于脊椎动物基因组的启动子区域,启动子区域CpG岛的高甲基化可以使基因的表达沉默。表观遗传沉默是编码肿瘤抑制因子、DNA修复酶和参与其他细胞/调节途径的蛋白质的基因在人类癌症中失活的一个重要机制,这意味着表观遗传沉默可能参与了癌症的开始和进展。

03 流程及数据

流程图:

具体过程:

  1. 数据预处理:对 Illumina 450K 甲基化芯片进行归一化并SVA去批次效应。
  2. 差异分析:检测肿瘤与正常组织的DMRs。
  3. 通过层次聚类确定协同调控的DMRs,并确定每个DMRs聚类中显著富集的DNA结合蛋白基序。
  4. 结合基序在DMRs中富集的蛋白的基因表达水平与DNA甲基化相关,并据此确定DMRs的甲基化调节基因。
  5. 网络分析,找出与调控基因相关的网络模块。

数据

TCGA中516个BRCA的DNA甲基化数据(level 1),及临床信息。

TCGA中498个乳腺癌RNA-seq数据(level 3)。

研究人员选择了DNA甲基化数据中的94对匹配的乳腺癌(BRCA)样本和正常组织样本进行差异分析。并且在94对配对样品(188个)中,有171 个样本同时具有 RNA-Seq 和 DNA 甲基化数据。

7个数据库:

hPDI、JASPAR、UniPROBE、StamLab、Jolma、CIS-BP、Hocomoco

利用motifDb软件对7个数据库中所有DNA结合蛋白的DNA基序检索,得到DNA基序的位置加权矩阵(PWMs)。

04 结果

Differentially methylated CpG sites in breast tumors

在94对乳腺癌(BRCA)样本和配对的正常组织样本中,发现了42,850个差异甲基化区域(DMRs),其中包括77,298个CpG位点(FDR≤10-3),12853个DMRs在肿瘤中甲基化水平高于正常组织,29997个DMRs低于正常组织。

研究人员分析了DMRs在基因组的分布,发现高甲基化DMRs与低甲基化的DMRs均在CpG open seas中富集。并且DMRs富集在gene body中,几乎不出现在启动子部分。

Motifs of DNA-binding proteins enriched in DMRs

之前研究表明,CpG位点周围DNA序列(约1000 bp)中蛋白结合基序的突变决定着CpG位点的甲基化水平。

研究人员首先进行了 DMRs聚类分析,然后搜索每个聚类中富含的 DNA 基序。

42850个DMRs被聚类为高甲基化和低甲基化两个簇。当Pearson’s correlation 阈值为0.6时,有66个clusters。

利用FIMO算法在66个聚类中的DMRs周围的1000 bp长的DNA序列中寻找富集的DNA基序。鉴定了108个DNA基序和109个与这些基序结合的蛋白质。

图2给出了由一个蛋白质结合的前10个基序和编码其结合蛋白的基因名称。除了STAT1和SP1这两个基因外,这10个基因都是甲基化调节基因。

Modulator genes for DMRs

为了确定 DNA 结合蛋白在调节 DNA 甲基化方面是否具有功能相关性,研究人员使用线性回归模型来测试编码 109 种蛋白质的基因表达水平与富含蛋白质基序的 DMR 簇中 CpG 位点的甲基化水平之间的相关性。

利用这171个样本的基因表达和DNA甲基化数据进行相关性分析。图3为产生最小P值的16个基因的相关分析结果。总之,研究人员共鉴定出79个基因的表达水平与相应DMRs的甲基化水平显著相关。

之后,研究人员用同时具有 RNA-Seq 和 DNA 甲基化数据的其余327个组织样本作为独立数据,验证79个基因的表达水平与相应DMRs甲基化水平之间的相关性。结果发现79个基因中63个的相关性在验证数据中仍然显著。因此,研究人员将63个基因命名为DNA甲基化调节基因(具体基因信息在补充文件3中)。

除 STAT1 和 SP1外,富集DMRs 的结合基序 的8 个属于 63 个甲基化调节基因。有3个基因(ESR1, FOXP1, SMAD4)曾被研究表明为癌症驱动突变的基因。

为了观察DNA甲基化调节基因的表达水平是否可以预测相应CpG位点的甲基化水平,研究人员采用多元线性回归模型,将66个DMR聚类中每个CpG位点的平均甲基化程度与结合基序在DMR聚类中富集的调控基因的表达水平拟合。

研究人员首先用训练数据拟合模型,之后通过验证集预测DMR聚类的平均甲基化水平。结果表明相关基因的表达水平具有很好的预测相应CpG位点甲基化水平的能力。

Network modules of methylation modulator genes

为了更好地了解这63个甲基化调节基因对DNA甲基化的影响,研究人员进行了网络分析。

基于 DNA 基序和基因表达数据,使用 FIMO 和 ACRANE 构建了一个由 964 个编码 DNA 结合蛋白的基因组成的网络。

由63个甲基化调节基因组成的网络,产生了一个包含 708 个基因和 1,275 个方向边缘的网络。(图4)63个甲基化调控基因表现出明显高于其他基因的外度中心性,表明这些调控基因对其他基因具有重要的调控作用。

在这个网络中,有16个基因是63个甲基化调控基因的调控基因,629个基因是63个甲基化调控基因的靶标。16个调控基因分别是ZFX、TBX1、USF2、RREB1、EGR2、SREBF2、WT1、MNT、TFAP4、ZNF740、SPIC、EGR4、SP1、CLOCK、ETV1和THRA。

癌症驱动突变的 DNA 结合蛋白的 18 个基因中有 15 个包含在 708 个基因中;它们是 TP53、MYC、GATA3、CBFB、MDM2、ESR1、FOXA1、BRCA1、CTCF、DNMT3A、FOXP1、XBP1、SMAD4、CUX1、PRDM1。

采用基于edge-betweenness 的群落检测方法获得了20个网络模块,并对甲基化调控基因扩展网络中的20个网络模块进行了检测。

在20个模块中,有16个模块中有一个或多个甲基化调节基因是中心节点,这意味着甲基化调节基因可能在调控其他基因中发挥重要作用。

为了深入了解这些网络模块的功能影响,研究人员最后从MSigDB中C2人类基因集中寻找每个模块富集通路。在FDR≤0.05的20个网络模块中,共发现29个MSigDB C2基因集富集:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 00 文章信息
  • 01 总述
  • 02 背景
    • 甲基化和CpG
    • 03 流程及数据
      • 流程图:
        • 数据
        • 04 结果
          • Differentially methylated CpG sites in breast tumors
            • Motifs of DNA-binding proteins enriched in DMRs
              • Modulator genes for DMRs
                • Network modules of methylation modulator genes
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档