前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >看看那些不在gnomAD数据库出现的常见人群变异位点是什么

看看那些不在gnomAD数据库出现的常见人群变异位点是什么

作者头像
企鹅号小编
发布2018-01-08 14:37:36
1.2K0
发布2018-01-08 14:37:36
举报
文章被收录于专栏:大数据

前面我们说到了对3784343个的SNP位点来说,3353921个因为人群频率大于了0.05会被过滤掉,还剩下430304值得我好好研究一下。

那么,现在就开始我的表演吧。

首先,看看过滤后那值得探索的43万位点长啥样,如下:

很明显,这些位点已经没有顺序来 ,而且这个格式,勉强来说可以当做是bed格式,但是也不完全一样,要把我们的vcf文件的变异,来根据这个位点文件进行挑选,现有的工具当然是可以做到,比如snpeff等等,但是我懒得去查看那些软件说明书了,自己动手丰衣足食,不就是写一个脚本的事情嘛。

这就是为什么我很讨厌annovar软件的问题,把大家公认的vcf转为自己的格式,害得我还得写代码转回来。

算了。

现在有了这个 文件,就可以进行snpeff软件的注释咯 , 运行代码很简单,如下:

位点不多,所以很快就走完了这个流程,其实这个时候注释我反而无法解读,因为snpeff注释的信息太多了,超过一百多种注释信息。但是它给了一个很不错的html报告,可以很清晰的看到这些突变的性质。

先看对这43万位点的一个总结表格吧:

变异总结表格

可以看到大部分位点(77.5%)都是在dbSNP数据库里面出现过的,并不是我本人特有的。

区分染色体看突变频率

可以看到突变频率还是蛮均一的,至少没有在染色体上面显示出特异性,至于染色体内部嘛,后面的图表再展现即可。

比较奇怪的是chr21和chr22的突变频率相差还是蛮大的,也许值得探究。

突变位点是否影响基因功能

可以看到仍然大部分突变都是silent的,并没有太大的影响,对基因功能产生非常大影响的那些突变才0.365%,当然,就是这么少才值得探究。

但是它们的总数加起来跟43万对不上,应该是还有其它解释。

图表太多,我就不一一介绍了,我比较好奇的是这个vcf报告竟然没有R语言版本的,值得我们深思,是不是可以写一个工具呢?

好吧,其它的,下期再见哈。

基因组重测序的unmapped reads assembly探究 【直播】我的基因组86

本文来自企鹅号 - 生信技能树媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 生信技能树媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档