前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MACS:使用最广泛的peak calling软件之一

MACS:使用最广泛的peak calling软件之一

作者头像
生信修炼手册
发布2019-12-19 15:34:16
1.3K0
发布2019-12-19 15:34:16
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

MACS全称是Model-based Analysis of ChIP-Seq,是使用的最广泛的peak calling软件之一,其基本原理简介如下

1. 预测测序reads与peak的偏倚距离

在chip_seq等数据中科学家发现在真实的结合位点两侧,正负链的测序深度分布如下图所示,对应峰值的中心距离peak中心有一定的偏移

MACS首先通过一个模型来评估真实的peak中心和测序峰值的偏移距离,给定参数bandwidth和mfold, 采用一个大小为2倍bandwidth的滑动窗口,比较该窗口内真实测序深度的分布与随机测序的差异,如果二者的差异倍数超过了阈值mfold,则认为该窗口是一个peak区域。识别到初始的peak区域之后,随机挑选1000个高可信度的peak区域,分别计算正链和负链的测序深度分布,示意如下

通过这种方式识别到正负链峰值之间的距离,定义为d。在后续peak calling时,会在初始计算结果的基础上向3’端偏移d/2的距离。

2. peak 检测

通常认为基因组上测序深度的分布是一个泊松分布,根据基因组测序深度的值,首先估算出整体泊松分布的参数

将初始peak区域偏移d/2的距离之后,再次已2d的滑动窗口进行滑动,寻找富集的区域,如果一个区域的测序分布的值大于整体泊松分布的值,则认为该区域是富集的。对于overlap的富集区域,进行合并,然后以peak中心区域开始,整体向3’端偏移d个碱基,其中测序深度最高的点作为peak的峰summit。

在比较input和IP样本的差异时,MACS也是基于泊松分布来计算的 ,只不过考虑到测序错误,重复区域,CNV等因素的影响,MACS采用了一个动态的泊松分布模型,即不是认为基因组所有区域都符合同一个泊松分布,而是认为不同的区域泊松分布的参数可以不同。对于候选的peak区域,通过以下模型去估算泊松分布的参数

1k代表以peak中心为中心的1k窗口内的数据估算出来的值,后面的5k, 10k类似。然后通过这个局部泊松分布的参数去计算每个peak区域的p值,如果小于指定的pvalue的阈值,则输出该peak区域,该区域内IP样本的序列条数和局部泊松分布参数的比值作为该peak的fold enrichment。

目前该软件已经更新到了2.0版本,功能更加的强大,在后续文章会详细介绍该软件的用法。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 预测测序reads与peak的偏倚距离
  • 2. peak 检测
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档