前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >那些基因组上的二代测序盲区

那些基因组上的二代测序盲区

作者头像
用户7625144
发布2022-03-08 13:50:05
7040
发布2022-03-08 13:50:05
举报
文章被收录于专栏:生信开发者生信开发者

人类基因组36bp唯一比对区域大约只占了人基因组大小的71%,因为二代测序短读长的特性,很多非唯一比对区域的特异性不是很好,在这些区域内的变异,不论是点突变还是CNV/SV,其可靠性都不是很高。Encode有一个project,对基因组上的 各种不同长度序列的比对唯一性做了评估。大家可参考下这篇博客( https://davetang.org/muse/2013/07/08/encode-mappability/ )。

即使是唯一比对区域,在GC异常区域,文库构建阶段在这些区域会有偏好性。因为二代测序基本全是基于PCR的测序技术,这些区域本身测序的质量也会差,比对率会降低。在call CNV的时候尤其需要考虑GC校正。

本人总结了如下一些Genomic blacklist region,github上也有一个关于这个的开源项目( https://github.com/Boyle-Lab/Blacklist )。

  1. 重复序列区域
  2. GC异常(高GC和低GC含量)区域
  3. 端粒和中心体区域
  4. 假基因/高度同源基因
  5. lower mappability score region

在这些区域,想干这些事情,简直是噩梦

  1. Primer design
  2. Probe sequence design for target capture sequencing
  3. aCGH Probe
  4. SNParray Probe

本人分析了一款SNParray的探针密度分布,发现在chr13、chr14、chr15、chr21(少量探针)、chr22的p端基本没有探针覆盖,这是因为这些区域绝大多数是高度重复区。

对于WES的CNV分析,本人最近计算了常规的几个WES的靶向区域的平均unique mappability score,并对(做了GC校正后)分析出来的基因组上的log2Ratio的分布做了可视化,将低unique mappability score的region标成了蓝色,而高unique mappability score的标成橙色,这样我们一眼就可能评估我们WES call出来的CNV的可靠性,减少假阳性困扰。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档