【直播】我的基因组80:为什么有些基因的内部测序深度差异如此大

这一讲里,我们依旧根据统计的基因测序的深度进行一下讨论,来看看为什么有些基因的内部测序深度差异如此大?

在前面我们的计算中,s列表示的是基因的每一个坐标的测序深度的方差,所以代表着基因的内部测序深度差异值。

在正常WGS中,每个基因的各个部分测序深度应该趋近于一致,可以形成一条直线。但是如果基因太长,内部GC含量不一致,那么每个基因的各部分测序深度可能就不一样了,而且有些基因可能是部分序列重复,这样的话这个部分序列就会被超量测序。不过,基因内部的部分缺失不会反应在S值里面,因为没有计算那些未被覆盖的基因区域。

对于前面的分析结果,我们可以简单的画一下s值跟基因的平均测序深度,基因长度,GC含量的关系,如下:

可以看到基因的S值(基因的内部测序深度差异)跟基因长度是没有关系的,这个很容易理解,因为S是方差,在公式里面本身摈弃了基因长度的影响。

但是S值跟测序深度和GC含量的关系,我只能画在这里,并不知道如何去解读。

而且这个图做的不好,应该对那些点加上透明度,尤其是0~200这个S值之间的点太过集中了。

接下来,我们简单看一下,S最大的基因是哪些吧,然后我们再一一解读:

MUC3A前面测序深度那一讲我就说了,这里就略过哈。它的问题反正在于,家族基因不清不楚。而且它的GC含量也太低了一点!!!

再排除几个覆盖度不够的基因,那么只剩下TMEM242 基因啦,它的英文介绍如下:

TMEM242 gene (Protein Coding), Transmembrane Protein 242

The C6orf35 protein has a conserved domain of unknown function pfam 07096, DUF 1358., which covers the first 121 aa of the protein. This domain is conserved in eukaryotes.

这个基因以前叫做C6orf35,这个名字我在论坛说过几次啦。在我的这次WGS数据里面,它的平均测序深度并不算太高,就77X而已,GC含量也不是太离谱,56.6%。为什么基因上面每个坐标的测序深度的差异性那么大呢?我在IGV里面定位到了它,仔细一瞧,有一个片段测序深度高达1000~2000,好可怕~~~~

然后看了看NGB这个基因,也是同样的问题,就是局部片段测序深度高的不正常,我可能需要再查查资料才能明白到底是什么原因。

(NGB)This gene encodes an oxygen-binding protein that is distantly related to members of the globin gene family. It is highly conserved among other vertebrates. It is expressed in the central and peripheral nervous system where it may be involved in increasing oxygen availability and providing protection under hypoxic/ischemic conditions.

除了了有基因的内部测序深度差异非常大的,还有一些基因内部测序深度基本没有差别的,比如下面几个基因,首先它们的基因长度都很短,这样的话,一个PE的reads就把它们给覆盖完了,整个基因的所有坐标都在同一堆reads上面,那么内部差异想大也打不起来了哦。

在于那些基因的内部测序深度差异如此大的基因,基因长度就没那么重要了,可能是基因内部GC含量非常的不平衡或者其它,这就需要进一步的分析了。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据结构与算法

18:鸡尾酒疗法

18:鸡尾酒疗法 总时间限制: 1000ms 内存限制: 65536kB描述 鸡尾酒疗法,原指“高效抗逆转录病毒治疗”(HAART),由美籍华裔科学家何大一于...

3525
来自专栏生信技能树

使用CGP数据库的表达矩阵进行药物反应预测

主页: CGP website 是 Genomics of Drug Sensitivity of Cancer (GDSC)计划的数据

881
来自专栏机器学习、深度学习

人群分析、人群计数 开源代码文献及数据库

Crowd Counting Via Scale-adaptive Convolutional Nerual Network https://github....

2437
来自专栏生信小驿站

文献翻译:Statistical Approaches for Gene Selection, Hub Gene Identification and Module Interaction in...

信息基因的选择是基因表达研究中的重要问题。基因表达数据的小样本量和大量基因特性使选择过程复杂化。此外,所选择的信息基因可以作为基因共表达网络分析的重要输入。此外...

571
来自专栏生信技能树

TCGA的28篇教程-早期泛癌研究

主要是研究肿瘤纯度,拷贝数变异,突变全景图,驱动突变,肿瘤异质性。我这里挑选第一个肿瘤纯度的泛癌研究进行解读:

2152
来自专栏生信技能树

哪怕是到了2018年,RNA-seq仍然可以不做重复

但是2018年二月的一篇文章,仍然是不做重复,文章是: Transcriptional Regulation of the Warburg Effect in ...

1182
来自专栏Y大宽

转录因子(TF)的作用方式

转录因子主要有3种作用方式调控基因表达: TF既可以结合在DNA临近的增强子也可以结合在启动子玉玉。和TF有关的基因转录既可以上调也可以下调,TF通过以下几个...

794
来自专栏Y大宽

Cytoscape插件4:iRegulon

对所有生物过程来说,基因表达的精确调控对基因表达是非常重要的。序列特异性的转录因子结合在DNA 识别区域(cis调控元件),并且因此控制目标基因的转录起始速率,...

1072
来自专栏互联网杂技

行列式的几何意义

行列式的定义: 行列式是由一些数据排列成的方阵经过规定的计算方法而得到的一个数。当然,如果行列式中含有未知数,那么行列式就是一个多项式。它本质上代表一个数值,...

31010
来自专栏Y大宽

hypothetical protein假设蛋白

在生物学中,hypothetical protein是这样一种蛋白,其存在已经被预测,但是缺乏体内表达的实验证据。基因组测序预测了众多的开放阅读框(open r...

763

扫码关注云+社区