欢迎关注”生信修炼手册”!
在进行peak calling分析时,经常会接触到以下3种peak格式
peak被定义为基因组上一段reads富集的区域,核心信息是在染色体上的起始和终止位置,除此之外,还有软件对于该peak区域的打分,比如常见的pvalue, qvalue, fold_enrichment等值。
和基因组比对信息用BAM格式来存储类似,为了标准化不同peak calling软件的输出,特意制定了以上3种数据格式。这三种格式本质上都是bed文件,只不过列数不太类似。
该格式又称之为point-source peaks format, macs2默认输出就是这种格式,是一种BED6+4的格式,列数为10列,示意如下
前四列分别代表chrom
, chromStart
, chromEnd
, name
, 用于描述peak区间和名称,注意bed格式中起始位置从0开始计数。
第五列代表score
,在macs2的输出结果中为int(-10*log10qvalue)
,第六列代表strand
, 在macs2的输出结果中为.
,第七列代表signalvalue
, 通常使用fold_enrichment
的值,第八列代表pvalue
, 在macs2的输出结果中为-log10(pvalue)
,第九列代表qvalue
, 在macs2的输出结果中为-log10(qvalue)
,第十列代表peak
, 在macs2的输出结果中为peak的中心,即summit距离peak起始位置的距离。
这种格式就是在narrow peaks format的基础上丢掉了最后一列的信息,为BED6+3的格式, 列数为9列。
前两种格式都是由于描述连续的peak区间,适用于DNA水平上的富集区域信息的存储,比如chip_seq, ATAC_seq鉴定到的peak区间,而gapped peaks format用于描述非连续的peak区间,这里的非连续通常指的是在peak的区间内会包含多个exon区域,适用于RNA水平上的富集区域信息的存储,比如m6A_seq鉴定到的peak区间。
该格式在BED12的基础上进行延伸,演变为BED12+3的格式,列数为15列,每列的含义示意如下
前6列的含义和上述两种peak格式完全相同,后3列的含义和broad peak完全相同,为了专区表示peak区间内包含的exon信息,借鉴转录本的BED12格式,引入了以下6列
thickStart
和thickEnd
有点类似转录本中CDS的起始和终止位置,在存储peak信息时,通常的做法是将这两列的值和chromStart
和chromEnd
的值设置成相同的,itemRgb
是一个RGB颜色值,比如255,0,0
, 如果没有对应的颜色信息,则用0
来表示。
blockCount
代表该peak区间包含的exon的个数,blockSizes
代表每个exon区间的长度,多个exon用逗号连接,blockStarts
代表每个exon区间在基因组上的起始位置,多个exon用逗号连接。
关于这三种格式的相关介绍请参考以下链接
https://genome.ucsc.edu/FAQ/FAQformat.html#format13
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!