前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >narrow,broad, gapped peak:三种格式之间的区别与联系

narrow,broad, gapped peak:三种格式之间的区别与联系

作者头像
生信修炼手册
发布2019-12-19 15:40:17
1.4K0
发布2019-12-19 15:40:17
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

在进行peak calling分析时,经常会接触到以下3种peak格式

  1. narrow peaks format
  2. broad peaks fotmat
  3. gapped peaks format

peak被定义为基因组上一段reads富集的区域,核心信息是在染色体上的起始和终止位置,除此之外,还有软件对于该peak区域的打分,比如常见的pvalue, qvalue, fold_enrichment等值。

和基因组比对信息用BAM格式来存储类似,为了标准化不同peak calling软件的输出,特意制定了以上3种数据格式。这三种格式本质上都是bed文件,只不过列数不太类似。

1. Narrow Peaks Format

该格式又称之为point-source peaks format, macs2默认输出就是这种格式,是一种BED6+4的格式,列数为10列,示意如下

前四列分别代表chrom, chromStart, chromEnd, name, 用于描述peak区间和名称,注意bed格式中起始位置从0开始计数。

第五列代表score,在macs2的输出结果中为int(-10*log10qvalue),第六列代表strand, 在macs2的输出结果中为.,第七列代表signalvalue, 通常使用fold_enrichment的值,第八列代表pvalue, 在macs2的输出结果中为-log10(pvalue),第九列代表qvalue, 在macs2的输出结果中为-log10(qvalue),第十列代表peak, 在macs2的输出结果中为peak的中心,即summit距离peak起始位置的距离。

2. Broad Peaks Format

这种格式就是在narrow peaks format的基础上丢掉了最后一列的信息,为BED6+3的格式, 列数为9列。

3. Gapped Peaks Format

前两种格式都是由于描述连续的peak区间,适用于DNA水平上的富集区域信息的存储,比如chip_seq, ATAC_seq鉴定到的peak区间,而gapped peaks format用于描述非连续的peak区间,这里的非连续通常指的是在peak的区间内会包含多个exon区域,适用于RNA水平上的富集区域信息的存储,比如m6A_seq鉴定到的peak区间。

该格式在BED12的基础上进行延伸,演变为BED12+3的格式,列数为15列,每列的含义示意如下

前6列的含义和上述两种peak格式完全相同,后3列的含义和broad peak完全相同,为了专区表示peak区间内包含的exon信息,借鉴转录本的BED12格式,引入了以下6列

  1. thickStart
  2. thickEnd
  3. itemRgb
  4. blockCount
  5. blockSizes
  6. blockStarts

thickStartthickEnd有点类似转录本中CDS的起始和终止位置,在存储peak信息时,通常的做法是将这两列的值和chromStartchromEnd的值设置成相同的,itemRgb是一个RGB颜色值,比如255,0,0, 如果没有对应的颜色信息,则用0来表示。

blockCount代表该peak区间包含的exon的个数,blockSizes代表每个exon区间的长度,多个exon用逗号连接,blockStarts代表每个exon区间在基因组上的起始位置,多个exon用逗号连接。

关于这三种格式的相关介绍请参考以下链接

https://genome.ucsc.edu/FAQ/FAQformat.html#format13

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Narrow Peaks Format
  • 2. Broad Peaks Format
  • 3. Gapped Peaks Format
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档