【直播】我的基因组68:看看哪些基因的突变较多,哪些较少

全基因组分析后的vcf突变文件记录了四百多万个位点,前面我们讲到了如何把它们注释到dbSNP数据库ID,一般来说有注释的位点也就顺便注释到了基因,所以可以简单写一个程序来看看哪些基因的突变位点最多:

cat autochr.highQuali.dbsnp.vcf |perl -alne '{/GENEINFO=(.*?)[;,\|]/;$h{$1}++ if $1 }END{print "$_\t$h{$_}" foreach keys %h}' >~/tmp/vcf.gene.stat

简单统计结果如下;

当然,其实并不需要注释到dbSNP数据后再进行统计,可以直接对vcf文件进行基因注释,因为vcf文件本身就记录着坐标,把vcf文件按照bed格式稍微转换一下,就可以用bedtools来进行注释啦。

首先制备好基因的坐标文件,染色体号,基因定位的起始终止坐标即可,比如下面这个SPIN1基因:

可以看到, 有10个突变位点注释到了这个基因,可以其中只有4个是dbSNP数据库记录的,所以最开始统计的基因的突变个数排行不是很准确。

那么我们就针对这个bedtools closest 结果进行统计吧:

可以看到几乎每个基因的突变个数都增加了,因为不需要被dbSNP数据库收录啦。

再看看基因突变个数的个数的变化:

之前突变个数为1的那些基因有1324个,但是现在只剩下了712个!

如果可视化在图上,就能看到条形图很明显的右移,不过这不是重点。

FAQ

为什么有712个基因仅仅发现一个突变呢?是这个基因太保守了吗?还是这个基因长度太短了?同理,那些突变异常多的基因又有什么特征呢?

我选取了那712个只有一个变异位点的基因,还有超过400个变异位点的909个基因。

很明显,从长度来解释是一个很好的角度~~

以上的变异位点,都应该改名叫做多态性位点。

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-04-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信宝典

一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点

本文授权转载自科研小助手(ID:SciRes)斜体小一号字体为生信宝典的备注或校正。

13.4K30
来自专栏Android点滴积累

Android高效内存2:让图片占用尽可能少的内存

Android高效内存:让图片占用尽可能少的内存 一、让你的图片最小化 1.1 大图小图内存使用情况对比 大图:440 * 336    小图:220 * 16...

322110
来自专栏Java与Android技术栈

利用tess-two和cv4j实现简单的ocr功能、

Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996...

22410
来自专栏進无尽的文章

多媒体-图片、音频、视频压缩

很多时候我们需要把一些图片、音频、视频上传到服务器,于是就有了文件压缩这个问题了,这篇文章就小结一下具体的文件压缩实现吧。

32710
来自专栏生信宝典

如何获取目标基因的转录因子(下)——Linux命令获取目标基因TF

如何获取目标基因的转录因子(上)一文中我们以人类基因组为例,从ensemble网站下载了基因组中基因位置信息矩阵GRCh38.gene.bed和基因组中转录因子...

59940
来自专栏生信技能树

使用ESTIMATE来对转录组表达数据根据stromal和immune细胞比例估算肿瘤纯度

ESTIMATE (Estimation of STromal and Immune cells in MAlignant Tumor tissues usin...

63620
来自专栏数据结构与算法

洛谷P3356 火星探险问题(费用流)

题目描述 火星探险队的登陆舱将在火星表面着陆,登陆舱内有多部障碍物探测车。登陆舱着陆后,探测车将离开登陆舱向先期到达的传送器方向移动。探测车在移动中还必须采集岩...

27140
来自专栏图形学与OpenGL

3.6.2 编程实例-河南地图绘制

#include <iostream> #include <fstream> #include<vector> #include <GL/glut.h> usi...

13410
来自专栏和蔼的张星的图像处理专栏

8.SSD目标检测之二:制作自己的训练集

最近秋色甚好,一场大风刮散了雾霾,难得几天的好天气,周末回家在大巴上看着高速两旁夕阳照射下黄澄澄的树叶,晕车好像也好了很多。 特地周六赶回来为了周末去拍点素材...

16840
来自专栏HansBug's Lab

算法模板——单个值欧拉函数

输入N,输出phi(N) 这样的单个值欧拉函数程序一般见于部分数论题,以及有时候求逆元且取模的数不是质数的情况(逆元:A/B=A*Bphi(p)-1 (mod ...

35950

扫码关注云+社区

领取腾讯云代金券