【直播】我的基因组 30:使用软件把变异分类—添加tag

前面我们讲解了VCF文件的基础信息,其中第8列的信息可以无限丰富,但是通常我们的call variation的软件默认只给出有限的信息,有的甚至都不会告诉你该变异的基本分类,我们就需要自己做了,就是把第八列丰富起来。而且上一讲我们自己用脚本探究了一下VCF变异文件里面的测序深度分布,质量值分布,INDEL和SNV的分布,还有杂合和纯和的比例。其实也不用自己造轮子,现成的工具就可以做到:http://snpeff.sourceforge.net/SnpSift.html#VariantType

这个软件用法很简单

java -jar ~/biosoft/SnpEff/snpEff/SnpSift.jar varType realign.vcf >realign.varType

一小会儿就运行完毕了。

可以看到文件大小没有显著的变化,因为它仅仅是在VCF文件上面,增加一些tag即可。从本质上来说就是对于VCF文件定义的理解。

它首先把variation分成这几类:SNP、MNP、INS、DEL、MIXED(不理解的补充一下基础知识)

然后再区分纯和杂合:HOM/HET (跟上一讲是一样的)很明显判断纯和和杂合,靠的就是GT这一列的信息了。结合DP4来做判断,或者直接用GT信息即可。

那么接下来就对它注释好的tag进行统计即可。

cat realign.varType |perl -alne 'next if/^#/;/VARTYPE=(.*?)\s/;print $1' |sort |uniq -c

结果略微有一点诡异,虽然纯和杂合的比例,跟前面得到的结果类似。但是variation的分类我有点晕,得仔细探究那些多种分类是怎么回事!

我搜索了DEL、DEL、DEL、DEL的那6个情况,发现了一个奇怪的现象(如下图),有知道原因的请留言给我哦。

文:Jimmy、阿尔的太阳

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2016-12-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WeTest质量开放平台团队的专栏

深度了解Android 7.0 ,你准备好了吗?

2016年8月22日,谷歌正式推送Android 7.0 Nougat(牛轧糖)正式版,首发推送了多款Nexus设备。除了修复常规BUG,Android 7.0...

763
来自专栏嵌入式程序猿

mscan VS flexcan

在嵌入式程序猿的公众号里,曾多次介绍过NXP的flexcan以及基于flexcan的一些其他协议和开发,最近在用NXP的另外一款片子,使用的是mscan,这两种...

3749
来自专栏吉浦迅科技

在NVIDIA Jetson TX2上运行 openpose

CMU 开源的一个实时多人关键点检测库( real-time multi-person keypoint detection),包括人体关键点,手部关键点,脸部...

1832
来自专栏小白客

用Python做简易词云

最近突发奇想,想做个词云玩玩,这算是Python的一个很初级的应用,虽然很初级,依然免不了会出现各种bug~

1263
来自专栏李蔚蓬的专栏

关于TensorFlow的安装和心得

随后在cmd处通过import tensorflow,查看本机的CUDA以及cuDNN的适机版本:

1153
来自专栏铭毅天下

吃透 | Elasticsearch filter和query的不同

除了确定文档是否匹配外,查询子句还计算了表示文档与其他文档相比匹配程度的_score。

1182
来自专栏章鱼的慢慢技术路

用ARM实现音乐电子相册

1462
来自专栏开源优测

JMeter定时器06

前言 在默认情况下,jmeter发送每个请求之间是没有延时的,如果采用默认方式,如果线程数足够大,瞬间就会将服务器压死。再则在实际的业务过程中,请求之间是有一定...

3476
来自专栏后端云

compute node ha 主流开源实现

nova evacuate和热迁移很像。都是想实例从一个节点转移到另外一个节点。区别主要是热迁移在正常状态下进行的,疏散时在异常状态下进行的。用一个形象的比如就...

1063
来自专栏Python中文社区

Github|Python开源项目漫游指南(一)

Scikit-learn Scikit-learn是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量...

2107

扫码关注云+社区