前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ENCODE数据库深入挖掘——发现增强子预测新方法

ENCODE数据库深入挖掘——发现增强子预测新方法

作者头像
生信技能树
发布2018-09-21 16:29:15
5K0
发布2018-09-21 16:29:15
举报
文章被收录于专栏:生信技能树生信技能树

今天分享的是标题为Differentialanalysis of chromatin accessibility and histone modifications for predictingmouse developmental enhancers的文献。这篇文章发表于2018年8月22日发表于Nucleic AcidResearch(IF=11.5),该工作通过ENCODE公共数据探索并发现了组织中预测增强子的新方法。

背景

增强子是影响胚胎发育,癌症发生等重要的基因调控原件。相对于启动子固定位置,增强子在基因组的位置并不固定,相聚距离可以是几kb,也可以是几千kb。对样本进行histoneChIP-seq和DNase-seq/ATAC-seq测序,然后通过峰预测(Peakcalling)找到增强子的位置,这也是鉴定增强子的主要方法。而细胞系相对均一,组织的数据更为复杂。本工作就逐步探索如何通过ChIP-seq,DNase-seq数据更好预测样本中的增强子。

数据

本文所用测序数据都是ENCODE公共数据。本工作选取了8种小鼠胚胎发育11.5天组织的5种histone ChIP-seq,DNase-seq和RNA-seq数据,其中包括了四种脑组织。增强子实验验证数据集是VISTA增强子数据库(https://enhancer.lbl.gov/)。

[ Q1 ] 用什么数据,什么算法可以更好预测增强子?

本工作中选择了10个算法对8个组织的5个ChIP-seq和DNase-seq进行峰预测。在此截取Figure1部分两个图,该图反应的是所有算法H3K27ac和DNase-seq数据会比其他类数据更好的预测性。以后肢(Limb)组织为例,在DNase-seq中DFilter算法和Hotspot2预测准确率更高,H3K27ac ChIP-seq中,有HOMER,MACS2等多个算法都表现较好。选择合适增强子的算法是是增强子准确预测的重要基础。

[ Q2 ] 是否要设定重复?如何处理重复数据?

ENCODE3数据库数据数据质量很高,所有数据均经过多重数据测试和后期人工校验,本工作所用的样本中设置了2组生物学重复Rep1、2。

上图是用不同算法处理DNase-seq数据后两个生物学重复结果的一致性,分别考虑了各个算法的top峰和所有峰的一致性。我们可以看到多个算法top1000生物学重复一致性不到50%,所有的峰一致性结果也很低,这意味着从两个生物学重复进行增强子预测,结果相差会很大。如果对结果取交集会使得峰结果很少,而并集后误差很大。

本工作采取了ENCODE3的uniform processing pipeline流程。该流程将两个生物学重复合并后(Rep0),然后随机分成两等份,称作伪重复(pseudo-replicates,pr)。最后选取的峰结果是合并数据集Rep0中同时和Rep1,Rep2有交集的峰或者同时和Rep0的两个人工伪重复有交集的峰预测数据集。理论上,该方法可以尽可能去除两个样本中无法重复的信息,也能通过伪重复保留尽量多一致的信息结果。该流程对峰预测和增强子预测结果影响有多大呢?

上图比较了经过峰预测统一流程前后峰的数量情况,生物学重复不稳定的算法在统一流程后(红色线)相对于两个生物学和合并重复样本(绿色,蓝色和紫色)得到的峰数量大幅减少,并且峰预测能力都有着有效的提升(未展示)。

[ Q3 ] 通过峰预测算法对两个生物学重复得到Enhancer candidates后,

如何准确对峰重新排序更好预测增强子?

过去的工作有研究组发现差异H3K27ac信号同增强子活性呈高度正相关。而本工作首先对不同小鼠组织的DNase-seq和H3K27ac ChIP-seq数据进行差异信号分析,然后以每个组织中测序信号的差异程度定义组织的差别,比如DNase-seq数据所有峰中信号差异越大,那么两个组织的差别也越大。

下来,对所有组织的数据,同其他组织分别进行差异分析,按每个峰的差别程度对峰重新排序。如上图,本工作通过PCA对多个样本数据降维进行可视化,如图,相似的脑组织距离较近,而同其他组织差别较大。同不同的组织作差异分析后预测增强子能力差别很大,并且同差别越大的组织进行差异分析结果预测增强子能力越强。线性拟合后组织的差异程度同增强子预测能力呈高度正相关。

PR-AUC曲线描述了每个峰结果排名从高到低的增强子预测的准确率。其中实线是差异分析重新排序后的峰增强子预测结果,虚线是峰预测算法本身的峰。从图中可以发现,差异分析后的峰PR曲线远远高于原始峰,尤其是排名较高的峰(横坐标Recall值)较小时,预测准确率(纵坐标Precision值)从约25%提升至50%-75%。在ENCODE更大的数据集上,对所有组织信号取权重差异能够进一步提升增强子预测,并且对其他技术得到的增强子也能有很好的预测提升。具体不在此展开。

欢迎ChIP-seq,DNase-seq/ATAC-seq和增强子研究的同行交流和引用。

Wechat ID: adamtongji

Shaliu Fu, Qin Wang,Jill E Moore, Michael J Purcaro, Henry E Pratt, Kaili Fan, Cuihua Gu, CizhongJiang, Ruixin Zhu, Anshul Kundaje, Aiping Lu, Zhiping Weng(2018); Differentialanalysis of chromatin accessibility and histone modifications for predicting mousedevelopmental enhancers, Nucleic Acids Research

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档