【直播】我的基因组79:为什么这些基因的覆盖度如此之低?

在之前,我们计算了每个基因的GC含量以及基因长度,也要samtools计算了每个基因的覆盖度以及平均测序深度,还有基因的内部测序深度差异值(S值)。也在上一讲中对我们对测序深度和覆盖度的统计做了一下简单的解析。这一讲里,我们具体来来讨论一下基因测序深度特别低的那些基因。

请输入标题 abcdefg

我们首先看看基因的平均测序深度吧!

根据我们前面画的GC含量和平均测序深度的趋势图可以得知,那些平均测序深度极低的常染色体基因,都是因为GC含量过高。但是平均测序深度太高的那些,原因却多种多样啦。

很简单,直接根据平均测序深度那一列排序即可,我们简单看看排在最前面的20个基因

排在首位的是USP17L22基因,可以看到,覆盖度还不到50%,要么这个基因部分缺失,要么这个基因跟它家族的其它基因相似性太高,关于该基因的英文介绍如下:

USP17L22 (Ubiquitin Specific Peptidase 17-Like Family Member 22) is a Protein Coding gene. Among its related pathways are Metabolism of proteins and Deubiquitination. GO annotations related to this gene include cysteine-type endopeptidase activity and thiol-dependent ubiquitin-specific protease activity.

我在IGV里面查看了一下具体reads覆盖情况,果然,这个基因的几个家族内部基因距离很近,说明这里的比对是不可信的。讨论它的覆盖度和测序深度也就没有意义了。

然后,我们看看排在第二位的PRB20B,覆盖度更低,我在IGV里面看了看,也是同样的情况,跟家族其它基因相似性太高了。

This gene is one of five identical loci in a cluster on chromosome 13q21.1. The predicted protein is proline-rich and contains several dopamine D4 receptor signatures and PRINTS domains. [provided by RefSeq, Oct 2008]

那我们看看MUC3A吧,这个基因覆盖度也很低,我在IGV里面看了看,很离奇,IGV里面无法搜索这个基因,不过我有它的坐标,也是可以查看的,如下:

可以看到这个基因区域大部分地方没有一条reads,这个很可怕,难道我的基因组会缺失这么大一个片段???

当然,还是那个问题,这个地方基因组注释有问题,不管是SNV还是INDEL,SV,CNV,均不可信!

The mucin genes encode epithelial glycoproteins, some of which are secreted and some membrane bound. Each of the genes contains at least one large domain of tandemly repeated sequence that encodes the peptide sequence rich in serine and/or threonine residues, which carries most of the O-linked glycosylation

而且,把上图的60Kb基因区域缩小到有reads的那一小部分,如下:

虽然在IGV里面显示的基因名变成了MUC12,但是基因位置没有变,只能说是MUC家族基因注释太乱了。

这里面的比对也很夸张,五彩缤纷呀!!!!而且里面的SNV都是杂合,这也太不可思议了。

最后再看一下NBPF1吧,这个基因跟上面的都不一样,因为它的覆盖度接近于100%啦!我的确很好奇,它239X的平均测序深度是在咋得的的。

The NBPF gene family, of which NBPF1 is the founding member, consists of 22 genes and pseudogenes that arose by gene duplication. NBPF genes contain numerous low-copy repetitive elements and show high intergenic and intragenic sequence identity in coding and noncoding regions

在IGV里面可以看到,有部分区域测序深度其实已经超过1000了,甚至可以说是形成了一个peaks。哈哈,不需要做ChIP-seq就可以拿到peaks了,而且还是很标准的,如下:

以上只是挑选了几个最显著的例子给大家描述了一下,只是把问题提出来了,并没有给出合理的解释。因为这里面涉及到的知识非常多,我的知识面还不够。

希望大家可以帮我解读这些现象,一起把二代测序了解更深入。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信技能树

三维基因组学习笔记

本周受邀来武汉菲沙基因参加三维基因组学习研讨班,所以更新该系列该领域基础知识以及一个实战项目的方方面面,测试数据以及流程软件的解说,希望大家喜欢!

2231
来自专栏企鹅号快讯

AI+基因测序,谷歌不久前免费开放最尖端的深度学习技术让编辑基因?

2017年12月4号谷歌大脑开源了将两大风口尖端科技融合的DeepVariant平台,这代表什么意义? 首先我们回顾下什么是DeepVariant技术? ? 新...

4145
来自专栏生信技能树

2019年2月份第1周文献分享(总第53周)胃癌的类器官研究(附视频)

而且通过形态学,WES和RNA-seq数据说明了其研究团队构建的类器官可以比较好的模拟其对应的肿瘤,包括 regional heterogeneity and ...

1574
来自专栏生信宝典

ICGC数据库使用

TCGA是不错的癌症研究数据资源,但癌症研究不只是有TCGA。ICGC国际癌症基因组联盟,有亚洲、澳大利亚、欧洲、北美和南美17个行政区的89个项目,包括25,...

5109
来自专栏新智元

【北航新型人工突触】能模拟人类神经系统基本功能的人工突触诞生

【新智元导读】近日 ACS Nano 刊登了一项研究报告,称已开发出能够模拟我们神经系统基本功能的人工突触,能够从同一“突触前”末端释放抑制和刺激信号。这项研究...

3515
来自专栏AI科技评论

学界 | 斯坦福大学新 AI 算法,凭照片辨别出你是不是“Gay”

“有的细节,人无法辨认,不等于机器也不行;比如通过脸部的细微特征来判断这个人的性取向。” 斯坦福研究员 Michal Kosinski 如是说。AI科技评论获得...

2868
来自专栏生信技能树

【直播我的基因组66:大多数性状往往是多个基因控制的

前面我们说到了那些简单的由单个基因决定的性状,这东西不需要预测,其中的生物学机制已经研究的非常透彻,只要拿到你的基因信息,很容易推断你的性状,比如人的乙醇脱氢酶...

34012
来自专栏AI科技大本营的专栏

研究AI识别同性恋竟受到死亡威胁!论文作者回应如下

翻译 | AI科技大本营(rgznai100) 参与 | 周翔、reason_W、shawn 随着 iPhone X 的发布,利用深度学习进行人脸识别预计将逐渐...

3356
来自专栏AI科技大本营的专栏

研究 AI 识别同性恋竟受到死亡威胁!论文作者回应如下

2016 年年底,上海交通大学的武筱林教授和他的博士生张熙发表了一篇论文——《基于面部图像的自动犯罪概率推断》,这篇论文在 AI 界引起了轩然大波:人的面部特征...

1831
来自专栏大数据文摘

新型算法可确定基因组突变位点

1978

扫码关注云+社区