“It provides a measure of pileup across the genome and is computed by looking at the standard deviation of signal pile-up along the genome normalised to the total number of reads. ”
FRiP:Fraction of reads in peaks
FRiP表示的是peaks中的reads与总reads的比例。它是另一个反映样本富集效果或IP好坏的评价指标。可以理解为是“信噪比”即文库中结合位点片段占背景reads的比例。一个典型质量好的TF富集FRiP值约5%或者更高,polII的FRiP值约为30%或者更高,也有一些质量好的数据FRiP值<1%(如RNAPIII)
Relative Enrichment of Genomic Intervals (REGI)
REGI是对peaks在不同基因组特征位点分布的统计。
RiBL: Reads overlapping in Blacklisted Regions
过滤人工造成的高信号区域非常重要,如ENCIDE和modENCODE提供的DAC Blacklisted Regions track。这些区域经常在特定的重复序列处出现,如着丝粒、端粒、卫星重复序列等,通过简单的比对过滤是不能去除的。来自blacklisted regions的信号会造成call peak 和片段长度评估的混淆。
RiBL值可以表示背景信号或input的信号水平,与input sample的SSD值以及input和ChIP sample的读长覆盖值相关。这些区域通常是基因组的0.5%,或者更高的比例(10%)。
Figure 2 Heatmap of log2 enrichment of reads in genomic features
ChIP signal Distribution and Structure
第二部分是ChIP信号分布和结构组成,包括Figure3和4。
Figure 3是一个coverage plot, x轴代表在某bp位置read pileup的高度,y轴代表有多少位置有相同的pileup 高度(取log)。**有好的富集的ChIP样本会有一个tail,即更多的位置(y值大)有较高的测序深度。在我们的数据集中Nanog样本与Pou5f1 相比有较高的tails,尤其是重复样本2。但是Pou5f1有较高的SSD值。当SSD高但是coverage看起来低时,可能是存在大片段深度高的区域出现在blacklist 基因组区域。
Figure 3. Plot of the log2 base pairs of genome at differing read depths
Peak Profile and ChIP Enrichment
第3部分是peak的谱图和ChIP的富集,每个peak都集中在summit位置(summit 理解为peak的最高峰值点处)
Figure 5. Plot of the average signal profile across peaks
peak的性状取决于研究对象的类型,如转录因子、组蛋白标记、或其他DNA结合蛋白如聚合酶等,相同类型的对象通常有独特特征的谱图。
Figure6和7都是对比对到peak中的reads统计。富集效果好的ChIP样本的reads与peaks会有高比例的重合。尽管Nanog有较高的RiP,但是两个重复样本间的差异大于Pou5f1。
Figure 6. Barplot of the percentage number of reads in peaks
Figure 7. Density plot of the number of reads in peaks
Figure8和9表示样本的聚类效果,分别是相关性聚类热图和PCA。
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。