【直播】我的基因组80:为什么有些基因的内部测序深度差异如此大

这一讲里,我们依旧根据统计的基因测序的深度进行一下讨论,来看看为什么有些基因的内部测序深度差异如此大?

在前面我们的计算中,s列表示的是基因的每一个坐标的测序深度的方差,所以代表着基因的内部测序深度差异值。

在正常WGS中,每个基因的各个部分测序深度应该趋近于一致,可以形成一条直线。但是如果基因太长,内部GC含量不一致,那么每个基因的各部分测序深度可能就不一样了,而且有些基因可能是部分序列重复,这样的话这个部分序列就会被超量测序。不过,基因内部的部分缺失不会反应在S值里面,因为没有计算那些未被覆盖的基因区域。

对于前面的分析结果,我们可以简单的画一下s值跟基因的平均测序深度,基因长度,GC含量的关系,如下:

可以看到基因的S值(基因的内部测序深度差异)跟基因长度是没有关系的,这个很容易理解,因为S是方差,在公式里面本身摈弃了基因长度的影响。

但是S值跟测序深度和GC含量的关系,我只能画在这里,并不知道如何去解读。

而且这个图做的不好,应该对那些点加上透明度,尤其是0~200这个S值之间的点太过集中了。

接下来,我们简单看一下,S最大的基因是哪些吧,然后我们再一一解读:

MUC3A前面测序深度那一讲我就说了,这里就略过哈。它的问题反正在于,家族基因不清不楚。而且它的GC含量也太低了一点!!!

再排除几个覆盖度不够的基因,那么只剩下TMEM242 基因啦,它的英文介绍如下:

TMEM242 gene (Protein Coding), Transmembrane Protein 242

The C6orf35 protein has a conserved domain of unknown function pfam 07096, DUF 1358., which covers the first 121 aa of the protein. This domain is conserved in eukaryotes.

这个基因以前叫做C6orf35,这个名字我在论坛说过几次啦。在我的这次WGS数据里面,它的平均测序深度并不算太高,就77X而已,GC含量也不是太离谱,56.6%。为什么基因上面每个坐标的测序深度的差异性那么大呢?我在IGV里面定位到了它,仔细一瞧,有一个片段测序深度高达1000~2000,好可怕~~~~

然后看了看NGB这个基因,也是同样的问题,就是局部片段测序深度高的不正常,我可能需要再查查资料才能明白到底是什么原因。

(NGB)This gene encodes an oxygen-binding protein that is distantly related to members of the globin gene family. It is highly conserved among other vertebrates. It is expressed in the central and peripheral nervous system where it may be involved in increasing oxygen availability and providing protection under hypoxic/ischemic conditions.

除了了有基因的内部测序深度差异非常大的,还有一些基因内部测序深度基本没有差别的,比如下面几个基因,首先它们的基因长度都很短,这样的话,一个PE的reads就把它们给覆盖完了,整个基因的所有坐标都在同一堆reads上面,那么内部差异想大也打不起来了哦。

在于那些基因的内部测序深度差异如此大的基因,基因长度就没那么重要了,可能是基因内部GC含量非常的不平衡或者其它,这就需要进一步的分析了。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏林欣哲

科个普啦--遗传算法

今天给大家说一个奇妙的算法,灵感来源于达尔文的进化论。 达尔文曾说,生物在地球上进化了这么多年,能生存下来的不是最强或最聪明的,而是最适合环境的生物。 而我们的...

2454
来自专栏机器之心

懒人福利:不写代码调优深度模型,谷歌开源的「What-If」了解一下

构建有效的机器学习系统意味着要问许多问题。仅仅训练一个模型放在那儿是不够的。优秀的从业者就像侦探一样,总是试图更好地理解自己的模型:对数据点的改动对模型的预测能...

453
来自专栏专知

【CQA论文笔记】基于异构社交网络学习的社区问答方法,同时建模问题、回答和回答者

【导读】传统的社区的问答(CQA)仅对问题和答案的内容进行编码,为问题准确地匹配高质量的回答。这篇文章提出使用社区中用户的交互信息进行嵌入,借助了异构社交网络中...

3164
来自专栏专知

基于TensorFlow的机器学习速成课程25讲视频全集(19-20讲)

1532
来自专栏新智元

【TensorFlow超级指南】你能想到的TF教程和资源都在这里了

【新智元导读】众所周知,TensorFlow已然成为机器学习的热门工具。不论是学习还是从事与机器学习相关的工作,能够灵活使用TensorFlow可以大幅提高作业...

672
来自专栏AI研习社

模型可解释性差?你考虑了各种不确定性了吗?

本文作者是来自 Taboola 的数据科学家 Inbar Naor,她的研究领域是探索深度学习在推荐系统中的应用,在本文作者介绍了数据科学中模型不确定性的问题,...

904
来自专栏机器学习算法原理与实践

矩阵分解在协同过滤推荐算法中的应用

    在协同过滤推荐算法总结中,我们讲到了用矩阵分解做协同过滤是广泛使用的方法,这里就对矩阵分解在协同过滤推荐算法中的应用做一个总结。(过年前最后一篇!祝大家...

693
来自专栏华章科技

数据科学经验谈:这三点你在书里找不到

我真的不是在说这些课程的坏话。我在大学教了很多年的机器学习,教的东西始终都围绕着那些非常具体的算法模型。你可能非常了解支持向量机,高斯混合模型, K-均值聚类等...

513
来自专栏北京马哥教育

一张图教你入门大数据

? 作者:binro 来源: http://blog.csdn.net/jor_el/article/details/13400673 大数据 1 概念 1....

2885
来自专栏机器之心

深度学习应用实践指南:七大阶段助你创造最佳新应用

选自arXiv 作者:Leslie N. Smith 机器之心编译 参与:Jane W、黄小天 近日来自美国海军研究室人工智能应用研究中心的 Leslie N...

2498

扫描关注云+社区