全基因组甲基化测序(WGBS)是一种研究DNA甲基化的方法,以全面了解在基因组水平上的表观遗传变化。在进行WGBS数据分析时,通常需要使用专门的比对工具,因为这些工具需要能够处理亚硫酸盐转化后的数据。
在MethHC数据库中,提供了18种癌症相关的DNA甲基化,microRNA表达谱和基因表达谱的数据,这里的数据来源于TCGA数据库。同时采用线性回归的方法计算甲基化和表达谱数据之间的关联。
DNA甲基化作为研究的最为广泛的一种表观遗传标记,其对基因表达的影响是研究的基本内容。随着lncRNA研究的发展,科学家将眼光放到了位于lncRNA基因上的DNA甲基化位点,通过lncRNA基因上的甲基化位点来找到疾病相关的lncRNA, 并探究lncRNA在疾病中的作用。
methylKit 是一个用于分析甲基化测序数据的R包,不仅支持WGBS,RRBS和目的区域甲基化测序,还支持oxBS-sq, TAB-seq等分析5hmc的数据。 其核心功能是差异甲基化分析和差异甲基化位点和区域的注释。
表观遗传学是与遗传学(genetic)相对应的概念。遗传学是指基于基因序列改变所 致基因表达水平变化,如基因突变、基因杂合丢失和微卫星不稳定等;而表观遗传学则是指基于非基因序列改变所致基因表达水平变化,如DNA甲基化和染色质构象变 化等;表观基因组学(epigenomics) 则是在基因组水平上对表观遗传学改变的研究。
子通路是指具有特定生物学功能的生物通路的局部区域。随着大规模测序数据的产生使我们有更多的机会来研究癌症发生的分子机制。研究DNA甲基化、拷贝数变异(CNV)和基因表达改变对致瘤的失调子通路分子状态的潜在影响是很必要的。本工作提出一个通过整合多组学数据和通路拓扑信息来识别癌症功能失调子通路(ICDS)的方法。利用肝癌(LIHC)、头颈部鳞状细胞癌(HNSC)、宫颈鳞状细胞癌和宫颈腺癌的数据集,验证了ICDS在识别异常子通路方面的有效性。进一步将ICDS和其他识别子通路的方法)(只考虑DNA甲基化、CNV或基因表达)进行比较,通过这些分析,证实ICDS比其他三种只考虑一种数据类型的方法更能识别癌症相关的子通路。
小编为大家爆肝整理了近百个数据库!共分10大类。今天小编先为大家分享前5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐使用的数据库,但却已不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!
我前面的甲基化教程主要是针对450k这样的芯片,所以champ流程就绰绰有余,很多小伙伴在咱们后台咨询甲基化测序数据分析,恰好最近实习生投稿: 下面是去年实习生的分享 methylKit是一个用于分析甲基化测序数据的R包,不仅支持WGBS,RRBS和目的区域甲基化测序,还支持oxBS-sq,TAB-seq等分析5hmc的数据。其核心功能是差异甲基化分析和差异甲基化位点和区域的注释。 主要步骤包括数据描述性分析,聚类、样品质量可视化、差异甲基化分析和注释特征等功能。 分析流程图如下: 📷 参考资料: htt
在450k/850K 芯片中,混合使用了I 型探针和II 型探针。每个 I 型探针对应两个bead type ,II型探针对应1个bead type。 这里的bead 实际上就是探针,就是用于和DNA序列杂交的一段特殊序列,之所以叫做bead, 是为了和I型,II 型探针的概念区分开。
随着时代的发展,单一研究转录组、蛋白代谢、甲基化等已经难以满足研究者越来越高的研究期望,大家更多地期望联合多种数据进行多组学联合分析。那么这时候,一种好的展示结果的方式无疑会为发表高分文章增光添彩。
也帮忙去各种检索,但确实没有好的解决方案,就让她发过来2个G的原始数据和代码,认真检查了好久,看起来就是我的教程的代码,一模一样啊!
然后下载了自己感兴趣的项目的每个样本的idat原始文件,也可以简单通过minfi包或者champ处理它们拿到一个对象。
heatmap()的输入应该是一个矩阵(或者一个将被转换为单列矩阵的向量)。如果矩阵被分割成组,必须用split参数指定一个分类变量。注意spilt的值应该是一个字符向量或一个因子。如果它是一个数字向量,它将被转换为字符。
有学徒表示虽然看了我在B站免费分享的视频课程《甲基化芯片(450K或者850K)数据处理 》,详见:免费视频课程《甲基化芯片数据分析》,但是课程过于强调实操,很多背景知识大家比较缺乏,所以学徒自告奋勇补充了一些甲基化基础知识,供大家学习!
作者是生信技能树组建的表观遗传学学习小组的小组长,前面已经发过一个: 学员分享-Chip-seq 实战分析流程 本文是看到生信技能树有个450K甲基化芯片数据处理传送门,我呢,恰好不久前用一个集成度很高的ChAMP包分析过850K的甲基化芯片数据。所以,就想着把自己的笔记整理下,可以和更多的小伙伴学习交流,还有个原因可能是因为这是四月份打算学生信时,接手的第一个任务,曲曲折折好几个月才跑通流程,遇到的坑也比较多,想记录下来。 我之前分析时是参考ChAMP包的源文档,非常详细的整个流程的介绍,但是,在笔记快整
在 ComplexHeatmap 中单个热图由热图主体和热图组件组成。热图主体可按行或列进行拆分。热图组件包括标题,进化树,矩阵名称和热图注释,可分别放置于热图主体的四个侧面上,这些组件也可根据热图主体的顺序进行重新排序或拆分。
题目:NEFM DNA methylation correlates with immune infiltration and survival in breast cancer
关于DNA甲基化相关的数据库,我们介绍了很多。上一周的时候,更是转载了一个介绍了20多个表观遗传相关的数据库。每一个数据库有些时候就是做的东西不一样的。所以我们就基于不同的目的选择不同的数据库即可。今天继续介绍一个DNA甲基化相关的数据库:SurvivalMeth(http://bio-bigdata.hrbmu.edu.cn/survivalmeth/)。这个数据库需要还是寻找和肿瘤预后相关的甲基化位点,同时通过DNA甲基化功能元件(methylation-related functional elements, DMFEs)来尝试探讨其甲基化位点的功能。
DNA甲基化是表观遗传研究的一个重要层面,且与发育、衰老和疾病的发生发展密切相关。为了更好地利用已公开的海量甲基化数据,此前,中国科学院北京基因组研究所国家基因组科学数据中心(以下简称基因组数据中心)已经发布了一个DNA甲基化的综合性数据库MethBank(https://ngdc.cncb.ac.cn/methbank/),涵盖了多物种高质量的全基因组单碱基精度甲基化图谱、健康人参比甲基化组以及人工审编的甲基化分析工具集。这里,我们介绍基因组数据中心最新发布的单细胞甲基化数据库——scMethbank(https://ngdc.cncb.ac.cn/methbank/scm/)。
在NGS飞速发展的时代,有大量研究通过GSWA的方法,阐述了SNP于疾病之间的关联; 也有学者利用WGBS,RRBS, 甲基化芯片等方式研究DNA甲基化与疾病之间的关系。不过是对于SNP和DNA甲基化,都有许多独立的数据库存储和整理相关信息,但是却缺乏公开的整合了SNP和DNA甲基化等多组学数据的数据库。
小伙伴们,上次为大家解读了一篇GEO甲基化芯片相关的SCI文献,详情点击:GEO数据库甲基化芯片挖掘发SCI是怎样炼成的,今天,小编打算带领大家用R软件实例操作分析GEO甲基化芯片。作为目前最大的芯片数据库,GEO数据库提供给我们了海量的数据,但是,错综复杂的数据交织在一起,如何选择数据是摆在我们面前最重要的问题,读完今天这篇文章,我相信大家都能学会GEO甲基化芯片的分析。下面,就和大家一起跑一遍R,希望大家喜欢这篇文章!
DNA甲基化是基因表达中重要的表观遗传调控因子,在癌症中发挥重要作用。MethHC提供包括临床病理数据、突变和拷贝数变异、循环肿瘤DNA甲基化谱等数据,用户可以用来癌症比较、诊断、预后、识别潜在的表观遗传生物标志物。
本来呢,还在奇怪,TCGA数据库里面的乳腺癌患者的放化疗信息应该是没有那么全吧。等我看完摘要才明白,原来是研究者自己招募的病人队列,来自于Iceland between 1976 and 2007. 而且Chemotherapy信息很丰富,包括 cyclophosphamide, methotrexate, and fluorouracil 。
比如RNA-seq的技术基本上取代了affymetrix的表达量芯片,但是甲基化测序技术,无论是WGBS还是RRBS都无法取代illumina公司的甲基化芯片,反而是其自己从27K进化到了450K,以及目前的850K甲基化芯片。每个技术在火爆之前都是一个红利期,那个时候只需要一个简单的实验设计,使用了最新技术,进行了基础分析就可以发表在很好的杂志。
之前我们在[[SNP是什么东西?#QTL]]当中提到过,QTL是一种用来预测SNP功能的算法。一般分析SNP影响哪个方面的功能就在前面加什么前缀。[[表观遗传学简介]]当中的DNA甲基化 (DNA methylation) 是一种通过给DNA序列添加甲基来影响基因功能的方式。如果要分析SNP对甲基化的影响,那么就会有meQTL (methylation QTL) 这样的东西。所以这里就给大家介绍两个关于meQTL预测的数据库。Pancan-meQTL: http://gong_lab.hzau.edu.cn/Pancan-meQTL/
SurvivalMeth是哈尔滨医科大学李霞教授团队开发的,于2020年8月11日发表在Briefings in Bioinformatics上的针对DNA甲基化预后分析的数据库。
文章数据分析流程图如下: 任务 如果你有R代码基础,那么你可能需要阅读我在生信技能树的甲基化教程列表: 01-甲基化的一些基础知识.pdf 02-甲基化芯片的一般分析流程.pdf 03-甲基化芯片
DNA甲基化作为表观遗传的一种标记,在生长发育和疾病发生过程中扮演着重要角色。随着大规模甲基化研究的进行,积累了大量疾病相关的甲基化数据,DiseaseMeth就是一个保存了人类疾病相关的甲基化信息的数据库。
有文章比较这3个技术:Empirical comparison of reduced representation bisulfite sequencing and Infinium BeadChip reproducibility and coverage of DNA methylation in humans,感兴趣的都是可以自由阅读,提高自己哈。甲基化信号的主要分析也是 差异甲基化区域(DMRs)与 DMR 相关差异基因。
近年来, 表观组关联分析(Epigenome-wide Association Study,EWAS)已成为探索复杂性状表观遗传基础的有效策略。随着大量EWAS科研成果的发表,现已积累了海量表观遗传数据,尤其是DNA甲基化芯片数据,其海量数据的整合分析对系统研究不同实验条件下的DNA甲基化状态以及探索与各种性状相关的表观遗传机制具有重要意义。目前,国际上存在一些数据库来存储DNA甲基化芯片数据,但这些数据库缺乏有效和统一的归一化方法来消除不同数据集之间的批次效应,可能对下游分析产生负面影响,元数据标准不统一,并且都不提供跨不同组织、性别、种族和疾病的标准化的DNA甲基化图谱。为了解决这些问题,国家中心开发了EWAS Data Hub数据库。
就有非常棒的一站式教程投稿,也因此我结识了优秀的六六,以及其教程大力推荐的R包作者,见:
step1: 计算资源的准备 如果有差不多配置的服务器,就可以从SRA/FASTQ格式数据开始走全套流程。不懂配置,请看前面转录组和表观组的传送门。 如果只有个人电脑,那么直接下载表达矩阵开始分析也是可以的。 step2: 读文献,查看GEO数据 文章是 Annotation and cluster analysis of spatiotemporal- and sex-related lncRNA expression in Rhesus macaque brain , 作者测了 4个年龄段的恒河猴:1年
显示的主要结果是一个可视化各个组学信息的热图上。其中最上面的是对于每个信息的注释信息。下面的是具体的结果信息。结果信息包括
A four-methylated mRNA signature-based risk score system predicts survival in patients with hepatocellular carcinoma 。
比如在李程老师的交流群看到了Roy et al., 于2021年11月发表在, Immunity 杂志的文章:《DNA methylation signatures reveal that distinct combinations of transcription factors specify human immune cell epigenetic identity》,链接是:https://doi.org/10.1016/j.immuni.2021.10.001
DNA 甲基化 (DNAm) 作为表观基因组学的一个重要分支,为转录调控提供了重要的依据,其中包括基因组印记、早期胚胎发育和癌症进展。尽管大量全基因组亚硫酸氢盐测序 (WGBS) 在绘制跨组织类型的 DNA 甲基化组图谱方面做出了巨大努力,但它在解释细胞异质性和理解特定生物学状态下的发育动态方面仍然存在一定的不足。另外,许多情况下(如哺乳动物早期胚胎发生),比较难获得大量细胞。目前开发的单细胞水平DNA甲基化策略包括:scRRBS和 scBS-seq,以及多组学方法,如 scTrioSeq2和 scM&T-seq。
转眼间2021都过去了快三分之一,我们的明码标价专栏建设的进度条却纹丝不动,感觉略微有点尴尬,得加油啦!根据大家在我们《生信技能树》,《生信菜鸟团》以及《单细胞天地》公众号后台关键词查询频率来看,甲基化差异分析是一个高频需求,就先把它明码标价哈!
同样的策略,我们也可以应用到其它领域的知识背景快速学习,比如我们的lncRNA系列,miRNA系列,现在我们一起学习一下甲基化吧。
首先进入TCGA下载数据GBM的RNA-seq和甲基化数据,从下表可见GBM共有172套RNA-seq数据以及437套DNA甲基化数据,由于TCGA提供Infinium HumanMethylation27 BeadChip和Infinium HumanMethylation450 BeadChip两种芯片平台的数据,为了避免后续不同芯片平台间数据合并的困难,仅下载HumanMethylation450的芯片数据,共计154套。
在DNA甲基化与疾病的研究中,最常见的一个问题就是,是否有已经发表的文献表明某个基因在某种疾病中发生了甲基化。回答这样的问题,需要大量的文件检索工作。
肿瘤异质性对癌症的个性化诊断和治疗提出了挑战。癌症特异性生物标志物的鉴定方法对于癌症类型的诊断和治疗具有重要应用。在这项研究中,作者分析了来自 TCGA 和 GEO 的泛癌 DNA 甲基化数据,并提出了一种基于 G 蛋白偶联受体相关基因(GPCRs-related genes)的 DNA 甲基化水平来量化特异性程度的计算方法。并鉴定泛癌中的特定 GPCR DNA 甲基化生物标志物 (GRSDMs)。然后,使用基于岭回归的方法通过预测癌症样本的药物敏感性来发现潜在的药物。
前面给大家介绍了新版的TCGA数据库,通过文字和视频给大家讲解了如何从TCGA数据库下载RNAseq数据,miRNAseq数据以及体细胞突变数据
大家好,今天和大家分享的是2020年3月发表在Journal for ImmunoTherapy of Cancer(IF=9.913)上的一篇文章:“LAG3 (LAG-3, CD223) DNA methylation correlates with LAG3 expression by tumor and immune cells, immune cell infiltration, and overall survival in clear cell renal cell carcinoma”,作者利用TCGA数据库的肾透明细胞癌(KIRC)数据进行分析,发现了编码免疫抑制分子LAG-3的基因的甲基化修饰与该基因在肿瘤和免疫细胞中的表达、免疫浸润以及总生存期的联系,并进一步在来自波恩大学附属医院(UHB)的KIRC样本中证实了这种联系,这一发现有望给LAG-3抗体疗法的临床试验提供参考。
DNA甲基化,对于做科研的小伙伴们或多或少不陌生吧,而R语言复杂的代码加上报错也常常让小伙伴们怒砸键盘不已!今天,小编给大家分享一个神器,让你轻松搞定甲基化数据分析。当然,如果有小伙伴对甲基化概念不甚了解,可动动手去文末查看!
大家好, 今天和大家分享的是 2020 年 2 月发表在 Cancer Med(IF:3.491)上的一篇文章,“Identification of aberrantly methylated differentially expressed genes and associated pathways in endometrial cancer using integrated bioinformatic analysis ”。作者使用GEO以及TCGA数据库筛选和验证了异常甲基化的DEGs,对它们进行功能富集分析和PPI网络分析。最终确定了EC相关的枢纽基因和富集途径,并探究了枢纽基因的预后特征。
在做差异表达的分析时,我们已经分享过oncomine+GEPIA双确认,oncomine+TIMER以及oncomine+UALCAN双确认两种方式。关键是双确认总比单个数据库有说服力。
很简单的设计,就是450K甲基化芯片:DCIS (n=40) and adjacent normal (n=15) ,另外的信息技术:Among 40 DCIS cases 13 later developed invasive disease
我组织的第一个活动是文献分享,第二周是关于ctDNA里面的甲基化在癌症诊断和预后的,都是中山大学肿瘤医院的大文章。
之前在介绍一些关于生物学基本知识的时候,提到过[[SNP是什么东西?]]以及[[基因突变需要了解那些内容?]]。这类的变异都是通过改变基因序列来影响基因的功能。除了这样的变异。还有一类变化叫做表观遗传学 (epigenetics) 。简单来说表观遗传学主要就是通过不影响基因序列的改变来影响基因基因的表达。
英文标题 Identification of epigenetic modulators in human breast cancer by integrated analysis of DNA methylation and RNA-Seq data
领取专属 10元无门槛券
手把手带您无忧上云