前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【直播】我的基因组65:看看哪些基因的突变较多,哪些较少

【直播】我的基因组65:看看哪些基因的突变较多,哪些较少

作者头像
生信技能树
发布2018-03-08 13:46:10
1.1K0
发布2018-03-08 13:46:10
举报
文章被收录于专栏:生信技能树生信技能树

全基因组分析后的vcf突变文件记录了四百多万个位点,前面我们讲到了如何把它们注释到dbSNP数据库ID,一般来说有注释的位点也就顺便注释到了基因,所以可以简单写一个程序来看看哪些基因的突变位点最多:

代码语言:javascript
复制
cat autochr.highQuali.dbsnp.vcf |perl -alne '{/GENEINFO=(.*?)[;,\|]/;$h{$1}++ if $1 }END{print "$_\t$h{$_}" foreach keys %h}' >~/tmp/vcf.gene.stat

简单统计结果如下;

当然,其实并不需要注释到dbSNP数据后再进行统计,可以直接对vcf文件进行基因注释,因为vcf文件本身就记录着坐标,把vcf文件按照bed格式稍微转换一下,就可以用bedtools来进行注释啦。

首先制备好基因的坐标文件,染色体号,基因定位的起始终止坐标即可,比如下面这个SPIN1基因:

可以看到, 有10个突变位点注释到了这个基因,可以其中只有4个是dbSNP数据库记录的,所以最开始统计的基因的突变个数排行不是很准确。

那么我们就针对这个bedtools closest 结果进行统计吧:

可以看到几乎每个基因的突变个数都增加了,因为不需要被dbSNP数据库收录啦。

再看看基因突变个数的个数的变化:

之前突变个数为1的那些基因有1324个,但是现在只剩下了712个!

如果可视化在图上,就能看到条形图很明显的右移,不过这不是重点。

FAQ

为什么有712个基因仅仅发现一个突变呢?是这个基因太保守了吗?还是这个基因长度太短了?同理,那些突变异常多的基因又有什么特征呢?

我选取了那712个只有一个变异位点的基因,还有超过400个变异位点的909个基因。

很明显,从长度来解释是一个很好的角度~~

以上的变异位点,都应该改名叫做多态性位点。

文:Jimmy

图文编辑:吃瓜群众

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-03-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档