【直播】我的基因组79:为什么这些基因的覆盖度如此之低?

在之前,我们计算了每个基因的GC含量以及基因长度,也要samtools计算了每个基因的覆盖度以及平均测序深度,还有基因的内部测序深度差异值(S值)。也在上一讲中对我们对测序深度和覆盖度的统计做了一下简单的解析。这一讲里,我们具体来来讨论一下基因测序深度特别低的那些基因。

请输入标题 abcdefg

我们首先看看基因的平均测序深度吧!

根据我们前面画的GC含量和平均测序深度的趋势图可以得知,那些平均测序深度极低的常染色体基因,都是因为GC含量过高。但是平均测序深度太高的那些,原因却多种多样啦。

很简单,直接根据平均测序深度那一列排序即可,我们简单看看排在最前面的20个基因

排在首位的是USP17L22基因,可以看到,覆盖度还不到50%,要么这个基因部分缺失,要么这个基因跟它家族的其它基因相似性太高,关于该基因的英文介绍如下:

USP17L22 (Ubiquitin Specific Peptidase 17-Like Family Member 22) is a Protein Coding gene. Among its related pathways are Metabolism of proteins and Deubiquitination. GO annotations related to this gene include cysteine-type endopeptidase activity and thiol-dependent ubiquitin-specific protease activity.

我在IGV里面查看了一下具体reads覆盖情况,果然,这个基因的几个家族内部基因距离很近,说明这里的比对是不可信的。讨论它的覆盖度和测序深度也就没有意义了。

然后,我们看看排在第二位的PRB20B,覆盖度更低,我在IGV里面看了看,也是同样的情况,跟家族其它基因相似性太高了。

This gene is one of five identical loci in a cluster on chromosome 13q21.1. The predicted protein is proline-rich and contains several dopamine D4 receptor signatures and PRINTS domains. [provided by RefSeq, Oct 2008]

那我们看看MUC3A吧,这个基因覆盖度也很低,我在IGV里面看了看,很离奇,IGV里面无法搜索这个基因,不过我有它的坐标,也是可以查看的,如下:

可以看到这个基因区域大部分地方没有一条reads,这个很可怕,难道我的基因组会缺失这么大一个片段???

当然,还是那个问题,这个地方基因组注释有问题,不管是SNV还是INDEL,SV,CNV,均不可信!

The mucin genes encode epithelial glycoproteins, some of which are secreted and some membrane bound. Each of the genes contains at least one large domain of tandemly repeated sequence that encodes the peptide sequence rich in serine and/or threonine residues, which carries most of the O-linked glycosylation

而且,把上图的60Kb基因区域缩小到有reads的那一小部分,如下:

虽然在IGV里面显示的基因名变成了MUC12,但是基因位置没有变,只能说是MUC家族基因注释太乱了。

这里面的比对也很夸张,五彩缤纷呀!!!!而且里面的SNV都是杂合,这也太不可思议了。

最后再看一下NBPF1吧,这个基因跟上面的都不一样,因为它的覆盖度接近于100%啦!我的确很好奇,它239X的平均测序深度是在咋得的的。

The NBPF gene family, of which NBPF1 is the founding member, consists of 22 genes and pseudogenes that arose by gene duplication. NBPF genes contain numerous low-copy repetitive elements and show high intergenic and intragenic sequence identity in coding and noncoding regions

在IGV里面可以看到,有部分区域测序深度其实已经超过1000了,甚至可以说是形成了一个peaks。哈哈,不需要做ChIP-seq就可以拿到peaks了,而且还是很标准的,如下:

以上只是挑选了几个最显著的例子给大家描述了一下,只是把问题提出来了,并没有给出合理的解释。因为这里面涉及到的知识非常多,我的知识面还不够。

希望大家可以帮我解读这些现象,一起把二代测序了解更深入。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信宝典

扩增子图表解读1箱线图:Alpha多样性,老板再也不操心的我文献阅读了

作者: 刘永鑫 日期:2017-6-17 阅读时长:10 min 宏基因组学 宏基因组学目前的主要研究方法包括:16S/ITS/18S扩增子、宏基因组、宏转录...

2186
来自专栏媒矿工厂

【视频编码】 Content Aware ABR技术(十二)

在本系列前面的帖子中,我们连续梳理了Netflix、YouTube、Beamr、EuclidIQ、Bitmovin、Harmonic、V-Nova、Cisco、...

921
来自专栏机器之心

资源 | DeepPavlov:一个训练对话系统和聊天机器人的开源库

选自GitHub 机器之心编译 参与:思源、刘晓坤 本文介绍了一个构建端到端对话系统和训练聊天机器人的开源项目 DeepPavlov,该开源库的构建基于 Ten...

2934
来自专栏媒矿工厂

视频压缩编码的新进展

前言 2015年10月,国际电信联盟(ITU-T)的视频编码专家组(VCEG)和国际标准化组织/国际电工委员会(ISO/IEC)的运动图像专家组(...

4507
来自专栏腾讯Bugly的专栏

iOS 11: CORE ML—浅析

导语:在刚刚过去的WWDC上,苹果发布了Core ML这个机器学习框架。现在,开发者可以轻松的使用Core ML把机器学习功能集成到自己的应用里,让应用变得更加...

3288
来自专栏应兆康的专栏

扭曲你的数据,让其变得具有视觉吸引力

经常有这样的情况,你用数据画出图像有看起来会很丑,如何让你的图像变得好看一点呢?本文给大家介绍如何扭曲你的数据,在不影响结果和其他属性的情况下,使得你数据画出来...

2604
来自专栏漫漫全栈路

数据库E-R模型关系图

早在专科阶段学习SqlServers时就学习过数据库E-R图,但是并没有真正的去了解这个东西,只是知道了大致的概念而已,借这次Oracle课程设计的机会,重新...

4084
来自专栏FD的专栏

机器之心深度研学社每周干货:2017年第26周

Siraj Raval 是油管上一位非常活跃的主播,他能通过幽默有趣的视频形式,教会你如何理解和应用人工智能,以及许多其它有趣的编程项目。在这期视频中,他主要介...

692
来自专栏机器之心

深度 | 生物神经网络基础:从尖峰放电神经元谈起

1162
来自专栏生信小驿站

文献翻译Complex integrated analysis of lncRNAs-miRNAs-mRNAs in oral squamous cell carcinoma(1)AbstractRe

本研究旨在通过基因表达数据揭示口腔鳞状细胞癌(OSCC)中lncRNAs-miRNAs-mRNA的调控网络。

583

扫描关注云+社区