第4篇:对ATAC-Seq/ChIP-seq的质量评估(一)——phantompeakqualtools

学习目标

  • 探讨ChIP-seq数据质量低的来源
  • 理解链交叉相关性( strand cross-correlation)
  • 使用phantompeakqualtools计算交叉相关性和其他相关的质控度量值
  • 评估交叉相关图

ChIP-Seq质量评估

在下游分析前,最好是先对peak calling 后的ChIP-Seq数据进行质量评估。

链交叉相关(Strand cross-correlation)

链交叉相关是一个有效的评估ChIP-Seq质量的方法,它不依赖于peak calling,而是基于ChIP-Seq实验。如果ChIP-Seq实验成功,DNA富集序列标签(蛋白质相互作用的序列)会在reads的双峰富集中产生显著的聚集。 产生reads的双峰富集的原因如下: 在ChIP-Seq实验中,DNA被片段化,蛋白质结合的片段会被免疫沉淀,所以产生了有蛋白质结合的DNA片段(fragments )。 DNA的正链从5'端开始被测序(如下图红色reads),DNA负链也从5’末端被测序产生如下图所示的蓝色reads。

Nat Biotechnol. 2008 Dec; 26(12): 1351–1359 由于从DNA片段的5′末端测序,使+链reads的富集(下图中的蓝色部分)与负链reads的富集(下图红色部分)有少量的相互抵消区域。我们需要确定峰位移多少碱基数目可以在两个峰间产生最大的相关性。我们可以用交叉相关的度量值(cross-correlation metric)计算产生最大相关的位移。

交叉相关性度量值 交叉相关度量是在Watson移动k个碱基后,计算Crick链与Watson链之间的Pearson线性相关。如下面的示意图: 首先在链位移为0时,两个向量之间的Pearson相关值为0.539。

在链位移5bp,两个向量之间的Pearson相关值为0.931。

继续移动这些向量,对于每个链位移计算一个相关值。

最后,我们将有一个每个碱基对移位与皮尔森相关值的对应表。这是针对每个染色体的每一个峰计算的,然后该值乘以一个缩放因子,再对所有染色体的值相加,就可以绘交叉相关值(y轴)相对于移位值(x轴)生成的交叉相关图。 典型的交叉相关图会产生两个峰:一个富集峰与主要的片段长度(predominant fragment length)相关(高相关性),另一个与read 长度(read length)相关,这个峰也被称为虚幻峰(“phantom” peak)。

  • 质量好的ChIP-Seq数据集倾向产生一个大的片段长度峰(fragment-length peak),下图展示了一个来自于人细胞CTCF(zinc-finger transcription factor)的强信号。如果有好的抗体,转录因子通常产生45,000~60,000个peaks。下图红色的垂直线表示主峰的真实位移,蓝色的垂直线处有一个小的起伏表示read lenngth。

strong signal

  • 下图是weaker signal的一个示例。这里Pol2的抗体不是很有效,有分散的峰。交叉相关图中有两个峰,一个是真实的峰位移(185-200bp),另外一个在read length。信号弱的数据集中read length的峰会成为主峰。

weaker signal

  • 一个失败的实验产生的交叉相关图类似于input,在fragment length处很少或没有峰,在read length处有信号非常强的。这种现象的原因可能是在结合位点附近fragments没有显著聚集。

failed experiment

交叉相关性质量评估度量值

交叉相关谱图可以计算评估ChIP_Seq实验信噪比的度量值,并且实验设计确保fragment length准确。低信噪比和不准确的fragment length 表明ChIP-Seq实验可能有问题。 Normalized strand cross-correlation coefficent (NSC): NSC是最大交叉相关值除以背景交叉相关的比率(所有可能的链转移的最小交叉相关值)。NSC值越大表明富集效果越好,NSC值低于1.1 表明较弱的富集,小于1表示无富集。NSC值稍微低于1.05,有较低的信噪比或很少的峰,这肯能是生物学真实现象,比如有的因子在特定组织类型中只有很少的结合位点;也可能确实是数据质量差。 Relative strand cross-correlation coefficient (RSC): RSC是片段长度相关值减去背景相关值除以phantom-peak相关值减去背景相关值。RSC的最小值可能是0,表示无信号;富集好的实验RSC值大于1;低于1表示质量低。

phantompeakqualtools

phantompeakqualtools 是一个用于计算ChIP-Seq数据富集和质量度量值的一个工具包。我们将使用该包来计算基于链交叉相关峰的主要插入大小(fragment length)和基于相对phantom peak的数据质量度量值。phantompeakqualtools是一个R包,依赖samtools下载phantompeakqualtools

wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/phantompeakqualtools/ccQualityControl.v.1.1.tar.gz
tar -xzf ccQualityControl.v.1.1.tar.gz
cd phantompeakqualtools
# 查看README
less README.txt

Linux下安装

R 
install.packages("caTools", lib="~/R/library")

运行phantompeakqualtools

mkdir -p logs qual

for bam in bam_dir/sample1.final.bam bam_dir/sample2.final.bam
do 
bam2=`basename $bam .final.bam`
Rscript run_spp_nodups.R -c=$bam -savp -out=qual/${bam2}.qual > logs/${bam2}.Rout
done

参数含义:

  • -c: 比对过滤后的bam文件的全路径和名字
  • -savp:保存交叉相关图
  • -out:会产生数据集重要特征值的输出文件

输出文件解读 输出文件会产生一个tab分割的名为qual的文件,包含的信息如下:

  • COL1:Filename:比对过滤的bam文件名
  • COL2:numReads :有效的测序深度
  • COL3:estFragLen:逗号分隔的交叉相关峰以相关性递减顺序排列的值
  • COL4: corr_estFragLen: 逗号分隔的以递减顺序排列交叉相关值
  • COL5: phantomPeak: Read length/phantom peak链位移
  • COL6: corr_phantomPeak: phantom peak相关值
  • COL7: argmin_corr:交叉相关最小的链位移
  • COL8: min_corr:交叉相关最小值
  • COL9: Normalized strand cross-correlation coefficient (NSC) = COL4 / COL8
  • COL10: Relative strand cross-correlation coefficient (RSC) = (COL4 - COL8) / (COL6 - COL8)
  • COL11: QualityTag: Quality tag based on thresholded RSC (codes: -2:veryLow,-1:Low,0:Medium,1:High,2:veryHigh) 我们最关注的值是第9列和第11列。 Cross-correlation plots 课程中的示例数据Nanog_rep1的交叉相关图

ATAC-seq数据特有的fragment size分布

在第一篇ATAC-seq文章里面,如图:

可以使用atacQC 对 ATAC文库出 Fragment size distribution ,示例图如下:

参考资料

哈佛深度NGS数据分析课程 https://github.com/hbctraining/In-depth-NGS-Data-Analysis-Course/tree/master/sessionV/lessons 04_ChIP-Seq Quality Assessment: Cross-correlation https://github.com/hbctraining/In-depth-NGS-Data-Analysis-Course/blob/master/sessionV/lessons/04_QC_cross_correlation.md

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-09-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DHUtoBUAA

正六边形网格化(Hexagonal Grids)原理与实现

 在路径规划、游戏设计栅格法应用中,正六边形网格不如矩形网格直接和常见,但是正六边形具有自身的应用特点,更适用于一些特殊场景中,比如旷阔的海洋、区域或者太空。...

51850
来自专栏大数据挖掘DT机器学习

用Python实现PCA和MDA降维和聚类

降维和聚类算是无监督学习的重要领域,还是那句话,不论是PCA、MDA还是K-means聚类,网上大牛总结的杠杠的,给几个参考链接: http://www....

61780
来自专栏C语言C++游戏编程

数学思维+C语言画小猪佩奇,来试试?

我们可以看成是坐标轴。很自然的,小编给大家推荐一个学习氛围超好的地方,C/C++交流企鹅裙:【 六二七,零一二,四六四 】适合在校大学生,小白,想转行,想通过这...

52930
来自专栏数据结构与算法

HDU4576 Robot(概率)

抄袭自https://www.cnblogs.com/Paul-Guderian/p/7624039.html

13410
来自专栏专知

【论文推荐】最新5篇推荐系统相关论文—文档向量矩阵分解、异构网络融合、树结构深度模型、深度强化学习、负二项矩阵分解

【导读】专知内容组整理了最近五篇推荐系统(Recommender System)相关文章,为大家进行介绍,欢迎查看! 1. ParVecMF: A Paragr...

47740
来自专栏大数据挖掘DT机器学习

机器学习&数据挖掘知识点大总结

Basis(基础): MSE(Mean Square Error 均方误差), LMS(LeastMean Square 最小均方), LSM(L...

432140
来自专栏生信技能树

比较不同的对单细胞转录组数据寻找差异基因的方法

背景介绍 如果是bulk RNA-seq,那么现在最流行的就是DESeq2 和 edgeR啦,而且有很多经过了RT-qPCR 验证过的真实测序数据可以来评价不同...

1.5K100
来自专栏专知

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

25360
来自专栏机器学习原理

天池大赛——瑞金医院MMC人工智能辅助构建知识图谱大赛审题解题思路解题训练模型编写预测结果

实体抽取就是自然语言中的命名实体识别,命名实体识别的算法非常多, 比如隐马尔科夫、条件随机场、rnn、lstm等等 用标注好的数据训练模型参数,调优,预测就...

69920
来自专栏CVer

[计算机视觉论文速递] 2018-03-11

通知:这篇推文有10篇论文速递信息,涉及目标检测、行人重识别Re-ID、图像检索和Zero-Shot Learning等方向 这篇文章本来是在2018-03-1...

46780

扫码关注云+社区

领取腾讯云代金券