前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >chip_seq质量评估之cross correlation

chip_seq质量评估之cross correlation

作者头像
生信修炼手册
发布2019-12-19 15:31:15
1.1K0
发布2019-12-19 15:31:15
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

chip_seq数据的质控是非常重要的,本文介绍数据质控的一个重要指标之一corss correlation。这个概念首发于以下文献

Design and analysis of ChIP-seq experiments for DNA-binding proteins

发表在nature biotechnology上,网址如下

https://www.nature.com/articles/nbt.1508

在该文章中对chip_seqs数据分析的完整pipeline进行了探究和解释,其中提出了一个peak位点两侧reads分布的规律,如下所示

图中所示的是一个NRSF转录因子结合位点两侧的reads分布,将reads分成了比对到正链和负链两部分。从黑色的密度分布曲线可以看到,二者符合同一个高斯分布。灰色竖线代表的是结合位点的中心,而reads密度分布的中心点距离peak的中心点有一定偏移。

从这张图可以发现两个规律,第一点peak位点附近的正负链上reads分布相同,第二点reads分布的中心点和peak的中心点存在偏移。为了量化这两个规律,科学家们提出了strand cross-correlation这个概念,考虑到reads分布相同而各自的中心点又存在一定距离,那么将reads的位置移动一定距离之后,正负链的中心重合,此时二者对称分布,可以参见下图

为了有效衡量偏移过程,用泊松相关系数来分析正负链测序深度的相关性,当正负链的中心点重合时,相关系数最高。通过这种逐步偏移的方式,可以得到偏移距离和相关系数之间的对应关系。

对于所有的peak都进行上述操作,然后将所有peak的结果汇总,就可以得到cross-correlation profiles, 详细的定义参见文献,如下所示

将偏移距离和对应的cross-correlation绘制曲线,可以得到如下所示的结果

在该图中会是出现两个峰值,第一个峰值对应的peak称之为phantom peak, 偏移距离对应测序读长,第二个峰对应chip peak,代表真实的结合位点,偏移距离对应插入片段长度。

通过这种cross-correlation plot的分布,可以直观的分析数据质量,示意如下

一个高质量的chip数据,chip peak对应的峰最高,phantom peak对应的峰较矮,如上图successful所示。如果两种峰都能够观测到,而phantom peak最高,则说明抗体还是富集到了部分序列,但是背景噪声太高了,不利于后续分析,对应marginal这种情况,如果观测不到chip peak峰,则说明chip实验是失败的。

为了更加精准的进行判断,在此基础上提出了两个量化指标NSCRSC,公式详见上图。chip peak越多,phantom peak越少,则NSC和RSC的值越高,数据质量越好。

在encode的数据集中,好的chip实验对应的这两个指标数值范围在5到12之间,但是他们也发现确实有些chip实验没问题,但是这两个指标的值很低,同时这两个指标和FRip socre之间有一定的相关性,所以实际分析中,这两个指标也可以看做一个chip质量的软标准,在encode的标准中认为NSC<1.05,RSC<0.8的实验是失败的,我们可以参考这个标准来进行判断。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档