【直播】我的基因组65:看看哪些基因的突变较多,哪些较少

全基因组分析后的vcf突变文件记录了四百多万个位点,前面我们讲到了如何把它们注释到dbSNP数据库ID,一般来说有注释的位点也就顺便注释到了基因,所以可以简单写一个程序来看看哪些基因的突变位点最多:

cat autochr.highQuali.dbsnp.vcf |perl -alne '{/GENEINFO=(.*?)[;,\|]/;$h{$1}++ if $1 }END{print "$_\t$h{$_}" foreach keys %h}' >~/tmp/vcf.gene.stat

简单统计结果如下;

当然,其实并不需要注释到dbSNP数据后再进行统计,可以直接对vcf文件进行基因注释,因为vcf文件本身就记录着坐标,把vcf文件按照bed格式稍微转换一下,就可以用bedtools来进行注释啦。

首先制备好基因的坐标文件,染色体号,基因定位的起始终止坐标即可,比如下面这个SPIN1基因:

可以看到, 有10个突变位点注释到了这个基因,可以其中只有4个是dbSNP数据库记录的,所以最开始统计的基因的突变个数排行不是很准确。

那么我们就针对这个bedtools closest 结果进行统计吧:

可以看到几乎每个基因的突变个数都增加了,因为不需要被dbSNP数据库收录啦。

再看看基因突变个数的个数的变化:

之前突变个数为1的那些基因有1324个,但是现在只剩下了712个!

如果可视化在图上,就能看到条形图很明显的右移,不过这不是重点。

FAQ

为什么有712个基因仅仅发现一个突变呢?是这个基因太保守了吗?还是这个基因长度太短了?同理,那些突变异常多的基因又有什么特征呢?

我选取了那712个只有一个变异位点的基因,还有超过400个变异位点的909个基因。

很明显,从长度来解释是一个很好的角度~~

以上的变异位点,都应该改名叫做多态性位点。

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大学生计算机视觉学习DeepLearning

手指静脉细化算法过程原理解析 以及python实现细化算法

1224
来自专栏宋凯伦的技术小栈

Android UsageStatsService(应用使用统计服务)的学习与调研

一. 简介 UsageStatsService是一个系统服务,其主要通过AMS等,来监测并记录各个应用的使用数据,如上次调用com.android.settin...

3925
来自专栏机器学习算法全栈工程师

Tensorflow实战:Discuz验证码识别

本文将使用深度学习框架 Tensorflow 训练出一个用于破解 Discuz 验证码的模型。

2.4K9
来自专栏用户画像

2.1.3 编码与调制

数据无论是数字的还是模拟的,为了传输的目的都必须转变成信号,把数据变换为模拟信号的过程称为调制,把数据变换为数字信号的过程称为编码。

431
来自专栏大学生计算机视觉学习DeepLearning

手指静脉细化算法过程原理解析 以及python实现细化算法

4145
来自专栏生信技能树

【直播】我的基因组68:看看哪些基因的突变较多,哪些较少

全基因组分析后的vcf突变文件记录了四百多万个位点,前面我们讲到了如何把它们注释到dbSNP数据库ID,一般来说有注释的位点也就顺便注释到了基因,所以可以简单写...

3767
来自专栏YoungGy

MMD_1a_MapReduce

MapReduce Distributed File System 传统的单机结构与分布式结构 分布式计算的难题 MR的解决 DFS概述 Computation...

2148
来自专栏Flutter入门

YUV像素数据处理

YUV,是一种颜色编码方法。常使用在各个视频处理组件中。 YUV在对照片或视频编码时,考虑到人类的感知能力,允许降低色度的带宽。

1102
来自专栏一棹烟波

CUDA与OpenGL互操作

当处理较大数据量的时候,往往会用GPU进行运算,比如OpenGL或者CUDA。在实际的操作中,往往CUDA实现并行计算会比OpenGL更加方便,而OpenGL在...

20310
来自专栏深度学习之tensorflow实战篇

pangrank算法--PageRank算法并行实现

前言 Google通过PageRank算法模型,实现了对全互联网网页的打分。但对于海量数据的处理,在单机下是不可能实现,所以如何将PageRank并行计算,将是...

2704

扫描关注云+社区