人类基因组36bp唯一比对区域大约只占了人基因组大小的71%,因为二代测序短读长的特性,很多非唯一比对区域的特异性不是很好,在这些区域内的变异,不论是点突变还是CNV/SV,其可靠性都不是很高。Encode有一个project,对基因组上的 各种不同长度序列的比对唯一性做了评估。大家可参考下这篇博客( https://davetang.org/muse/2013/07/08/encode-mappability/ )。
即使是唯一比对区域,在GC异常区域,文库构建阶段在这些区域会有偏好性。因为二代测序基本全是基于PCR的测序技术,这些区域本身测序的质量也会差,比对率会降低。在call CNV的时候尤其需要考虑GC校正。
本人总结了如下一些Genomic blacklist region,github上也有一个关于这个的开源项目( https://github.com/Boyle-Lab/Blacklist )。
在这些区域,想干这些事情,简直是噩梦
本人分析了一款SNParray的探针密度分布,发现在chr13、chr14、chr15、chr21(少量探针)、chr22的p端基本没有探针覆盖,这是因为这些区域绝大多数是高度重复区。
对于WES的CNV分析,本人最近计算了常规的几个WES的靶向区域的平均unique mappability score,并对(做了GC校正后)分析出来的基因组上的log2Ratio的分布做了可视化,将低unique mappability score的region标成了蓝色,而高unique mappability score的标成橙色,这样我们一眼就可能评估我们WES call出来的CNV的可靠性,减少假阳性困扰。