前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >blacklist regions:NGS测序数据中的黑名单

blacklist regions:NGS测序数据中的黑名单

作者头像
生信修炼手册
发布2019-12-19 15:34:00
1.6K0
发布2019-12-19 15:34:00
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

在NGS的数据分析,尤其是chip_seq类型的数据分析汇总,经常会看到这样一个概念blacklist regions,直译过来就是黑名单区域。什么样的区域称之为blacklist呢,它对数据分析又有什么样的影响,带着这两个问题,我们来了解下这个概念。

传统的二代测序由于其读长短的特点,对于基因组上的重复区域,在序列比对时无法有效区分到底来自哪一段区域,示意图如下

A和B是两个重复区域, 下方蓝色代表测序的reads。位于重复区域内的reads,从碱基组成来说与A和B区域都完全相同,单单利用比对算法,是无法正确识别来自哪一段区域的。在比对时不同的软件会有不同算法,或者随机选择一个位置,或者两个位置都计算一次测序深度,造成的结果就是重复区域的测序深度无法准确衡量,这对于后续的数据分析肯定会有一定程度的影响。

从测序深度分布来看,这些重复区域的测序深度普遍是一种虚高的现象,而且这种虚高无关样本类型,实验处理等条件,只是和物种有关。科学家通过分析各种实验处理,不同样本类型的NGS数据,找出了在所有样本中测序深度普遍偏高的基因组区域,将其定义为blacklist region,这些区域是二代测序技术的软肋,其中的reads信息无法有效利用。

关于各个物种的blacklist区域,可以从以下链接下载

http://mitra.stanford.edu/kundaje/akundaje/release/blacklists/

在chip_seq的数据分析中,核心是通过比较input和抗体处理的IP样本间测序深度分布的差异,从而识别蛋白质结合位点也就是peak。 blastlist区域的测序深度偏高,是一种噪声,在这些区域识别到的peak是不可靠的,所以需要去除位于这些区域的peak。

在ENCODE提供的chip数据分析的pipeline中,就提供了这样的功能,同时在官网上,也提供了人和小鼠的blastlist 区域供我们下载,以hg38为例,链接如下

https://www.encodeproject.org/annotations/ENCSR636HFF/

通过black list的过滤,可以进一步降低peak calling的假阳性。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档