【直播】我的基因组68:看看哪些基因的突变较多,哪些较少

全基因组分析后的vcf突变文件记录了四百多万个位点,前面我们讲到了如何把它们注释到dbSNP数据库ID,一般来说有注释的位点也就顺便注释到了基因,所以可以简单写一个程序来看看哪些基因的突变位点最多:

cat autochr.highQuali.dbsnp.vcf |perl -alne '{/GENEINFO=(.*?)[;,\|]/;$h{$1}++ if $1 }END{print "$_\t$h{$_}" foreach keys %h}' >~/tmp/vcf.gene.stat

简单统计结果如下;

当然,其实并不需要注释到dbSNP数据后再进行统计,可以直接对vcf文件进行基因注释,因为vcf文件本身就记录着坐标,把vcf文件按照bed格式稍微转换一下,就可以用bedtools来进行注释啦。

首先制备好基因的坐标文件,染色体号,基因定位的起始终止坐标即可,比如下面这个SPIN1基因:

可以看到, 有10个突变位点注释到了这个基因,可以其中只有4个是dbSNP数据库记录的,所以最开始统计的基因的突变个数排行不是很准确。

那么我们就针对这个bedtools closest 结果进行统计吧:

可以看到几乎每个基因的突变个数都增加了,因为不需要被dbSNP数据库收录啦。

再看看基因突变个数的个数的变化:

之前突变个数为1的那些基因有1324个,但是现在只剩下了712个!

如果可视化在图上,就能看到条形图很明显的右移,不过这不是重点。

FAQ

为什么有712个基因仅仅发现一个突变呢?是这个基因太保守了吗?还是这个基因长度太短了?同理,那些突变异常多的基因又有什么特征呢?

我选取了那712个只有一个变异位点的基因,还有超过400个变异位点的909个基因。

很明显,从长度来解释是一个很好的角度~~

以上的变异位点,都应该改名叫做多态性位点。

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-04-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

14张思维导图读懂 Python 编程核心知识体系

【新智元导读】本文主要涵盖了 Python 编程的核心知识,用14张思维导图说明问题。 本文来自ZOE | 数林觅风,作者小越酱,某医学院研二小硕一枚,热爱思维...

3407
来自专栏有趣的django

Django+xadmin打造在线教育平台(七)

代码 github下载 十、授课教师  10.1.讲师列表页 拷贝teacher-list.html和teacher-detail.html到template...

40910
来自专栏Jerry的SAP技术分享

你的项目刚刚启动?是时候考虑Globalization了!

关于这个很长的定语的由来,请参考这篇文章,里面有王聪的背景介绍,包括他种菜的特长:当我用UI5诊断工具时我用些什么。

872
来自专栏AI科技评论

动态 | 码农福音!CASIL开发代码移植系统,CTRL+C/V快速编程不再是梦想

问:对于码农来说,有哪些可以提高开发效率的技巧? 答:Ctrl+C、Ctrl+V。 ? (图片来源:知乎) AI科技评论发现:近日,麻省理工学院计算机科学与人工...

3399
来自专栏生信技能树

y叔的ChIP-seq数据分析大礼包

CS0: ChIPseq从入门到放弃 接下来要出一个ChIPseq系列,讲一讲ChIPseq和我的ChIPseeker包,从入门到放弃是我自己的个人写照。我做C...

38510
来自专栏PHP技术

编程命名看编程质量问题

很多人以为提高编码质量,需要很多激动人心的创新,需要明显的飞跃,这也许对,但我个人感觉项目中提高编码质量是个水磨功夫,要一步步积累,方法论大多时候帮助不大。 这...

3114
来自专栏一个番茄说

函数式编程漫谈

最近在思考一个问题,函数式编程对于我们的软件开发的意义到底有多大?到底值不值得我们花时间去学习。因此,写下这篇文章来记录自己的思考。文章包含了前后端开发中的一些...

552
来自专栏数据派THU

独家 | 带你入门比Python更高效的Numpy(附代码)

向量化技巧对于数据科学家来说是相当熟知的,并且常用于编程中,以加速整体数据转换,其中简单的数学变化通过可迭代对象(例如列表)执行。未受到重视的是,把有一定规模的...

823
来自专栏腾讯NEXT学位

编程新手:看懂很多示例,却依然写不好一个程序

3188
来自专栏C语言及其他语言

[每日一题]欧拉筛选法判断素数

今天给大家的是一种效率比较高(逼格一样高哦)的方法,叫欧拉线性筛选法 题目描述 用筛法求之N内的素数。 输入 N 输出 0~N的素数 样例输入 100 样例输出...

3366

扫描关注云+社区