【直播】我的基因组79:为什么这些基因的覆盖度如此之低?

在之前,我们计算了每个基因的GC含量以及基因长度,也要samtools计算了每个基因的覆盖度以及平均测序深度,还有基因的内部测序深度差异值(S值)。也在上一讲中对我们对测序深度和覆盖度的统计做了一下简单的解析。这一讲里,我们具体来来讨论一下基因测序深度特别低的那些基因。

请输入标题 abcdefg

我们首先看看基因的平均测序深度吧!

根据我们前面画的GC含量和平均测序深度的趋势图可以得知,那些平均测序深度极低的常染色体基因,都是因为GC含量过高。但是平均测序深度太高的那些,原因却多种多样啦。

很简单,直接根据平均测序深度那一列排序即可,我们简单看看排在最前面的20个基因

排在首位的是USP17L22基因,可以看到,覆盖度还不到50%,要么这个基因部分缺失,要么这个基因跟它家族的其它基因相似性太高,关于该基因的英文介绍如下:

USP17L22 (Ubiquitin Specific Peptidase 17-Like Family Member 22) is a Protein Coding gene. Among its related pathways are Metabolism of proteins and Deubiquitination. GO annotations related to this gene include cysteine-type endopeptidase activity and thiol-dependent ubiquitin-specific protease activity.

我在IGV里面查看了一下具体reads覆盖情况,果然,这个基因的几个家族内部基因距离很近,说明这里的比对是不可信的。讨论它的覆盖度和测序深度也就没有意义了。

然后,我们看看排在第二位的PRB20B,覆盖度更低,我在IGV里面看了看,也是同样的情况,跟家族其它基因相似性太高了。

This gene is one of five identical loci in a cluster on chromosome 13q21.1. The predicted protein is proline-rich and contains several dopamine D4 receptor signatures and PRINTS domains. [provided by RefSeq, Oct 2008]

那我们看看MUC3A吧,这个基因覆盖度也很低,我在IGV里面看了看,很离奇,IGV里面无法搜索这个基因,不过我有它的坐标,也是可以查看的,如下:

可以看到这个基因区域大部分地方没有一条reads,这个很可怕,难道我的基因组会缺失这么大一个片段???

当然,还是那个问题,这个地方基因组注释有问题,不管是SNV还是INDEL,SV,CNV,均不可信!

The mucin genes encode epithelial glycoproteins, some of which are secreted and some membrane bound. Each of the genes contains at least one large domain of tandemly repeated sequence that encodes the peptide sequence rich in serine and/or threonine residues, which carries most of the O-linked glycosylation

而且,把上图的60Kb基因区域缩小到有reads的那一小部分,如下:

虽然在IGV里面显示的基因名变成了MUC12,但是基因位置没有变,只能说是MUC家族基因注释太乱了。

这里面的比对也很夸张,五彩缤纷呀!!!!而且里面的SNV都是杂合,这也太不可思议了。

最后再看一下NBPF1吧,这个基因跟上面的都不一样,因为它的覆盖度接近于100%啦!我的确很好奇,它239X的平均测序深度是在咋得的的。

The NBPF gene family, of which NBPF1 is the founding member, consists of 22 genes and pseudogenes that arose by gene duplication. NBPF genes contain numerous low-copy repetitive elements and show high intergenic and intragenic sequence identity in coding and noncoding regions

在IGV里面可以看到,有部分区域测序深度其实已经超过1000了,甚至可以说是形成了一个peaks。哈哈,不需要做ChIP-seq就可以拿到peaks了,而且还是很标准的,如下:

以上只是挑选了几个最显著的例子给大家描述了一下,只是把问题提出来了,并没有给出合理的解释。因为这里面涉及到的知识非常多,我的知识面还不够。

希望大家可以帮我解读这些现象,一起把二代测序了解更深入。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

强化学习优质教程2 有视频

Lecture 1: Introduction to Reinforcement Learning

704
来自专栏水击三千

经纬度转换-----度分秒以及经纬度和米

经纬度互换 度(DDD):E 108.90593度    N 34.21630度     如何将度(DDD):: 108.90593度换算成度分秒(DMS)东经...

3027
来自专栏Java呓语

观察者模式(触发联动)

目录: 1、举例:发起登录请求 2、Android Adapter 相关源代码分析 3、EventBus 相关源代码分析 4、观察者模式总结

933
来自专栏深度学习自然语言处理

详解依存树的来龙去脉及用法

这开始介绍依存树的来龙去脉! 来历 a.简单的短语分词(正向逆向最大匹配,n-gram,机器学习...)(以单个词为重点) 比如: 猴子喜欢吃香蕉。->猴子 喜...

35710
来自专栏null的专栏

数据处理——One-Hot Encoding

一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用 ? 位状态寄存器来对 ? 个状态进行编码,每个状态都由他独立的寄存器...

3127
来自专栏图形学与OpenGL

《计算机图形学基础(OpenGL版)》勘误表

T2=[cos600∘sin600∘0−sin600∘cos600∘0001]=[−1/2−3/203/2−1/20001]T_2= \left[ \begin...

834
来自专栏CreateAMind

NIPS的最佳论文 强化学习Value iteration Network 及代码

TensorFlow实现:https://github.com/TheAbhiKumar/tensorflow-value-iteration-networks

1022
来自专栏数据结构与算法

agc015F - Kenus the Ancient Greek(结论题)

$Q$组询问,每次给出$[x, y]$,定义$f(x, y)$为计算$(x, y)$的最大公约数需要的步数,设$i \leqslant x, j \leqsla...

803
来自专栏Y大宽

TBtools基因家族分析详细教程(1)

一共分为4个部分 TBtools基因家族分析详细教程(1) TBtools基因家族分析详细教程(2)基因家族成员的基本分析 TBtools基因家族分析详细...

3072
来自专栏生信技能树

这可能是我见过最简单的一篇SCI了

批次很多时候无法避免,比如文章 Biomed Res Int. 2014 . doi: 10.1155/2014/319534 就提到:

923

扫码关注云+社区