【直播】我的基因组 30:使用软件把变异分类—添加tag

前面我们讲解了VCF文件的基础信息,其中第8列的信息可以无限丰富,但是通常我们的call variation的软件默认只给出有限的信息,有的甚至都不会告诉你该变异的基本分类,我们就需要自己做了,就是把第八列丰富起来。而且上一讲我们自己用脚本探究了一下VCF变异文件里面的测序深度分布,质量值分布,INDEL和SNV的分布,还有杂合和纯和的比例。其实也不用自己造轮子,现成的工具就可以做到:http://snpeff.sourceforge.net/SnpSift.html#VariantType

这个软件用法很简单

java -jar ~/biosoft/SnpEff/snpEff/SnpSift.jar varType realign.vcf >realign.varType

一小会儿就运行完毕了。

可以看到文件大小没有显著的变化,因为它仅仅是在VCF文件上面,增加一些tag即可。从本质上来说就是对于VCF文件定义的理解。

它首先把variation分成这几类:SNP、MNP、INS、DEL、MIXED(不理解的补充一下基础知识)

然后再区分纯和杂合:HOM/HET (跟上一讲是一样的)很明显判断纯和和杂合,靠的就是GT这一列的信息了。结合DP4来做判断,或者直接用GT信息即可。

那么接下来就对它注释好的tag进行统计即可。

cat realign.varType |perl -alne 'next if/^#/;/VARTYPE=(.*?)\s/;print $1' |sort |uniq -c

结果略微有一点诡异,虽然纯和杂合的比例,跟前面得到的结果类似。但是variation的分类我有点晕,得仔细探究那些多种分类是怎么回事!

我搜索了DEL、DEL、DEL、DEL的那6个情况,发现了一个奇怪的现象(如下图),有知道原因的请留言给我哦。

文:Jimmy、阿尔的太阳

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2016-12-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT技术精选文摘

LVS集群的负载调度

1. 前言 本文将主要讲述在负载调度器上的负载调度策略和算法,如何将请求流调度到各台服务器,使得各台服务器尽可能地保持负载均衡。文章主要由两个部分组 成。第...

2149
来自专栏吉浦迅科技

DAY91:阅读Programming Model

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第91天,我们正在讲解Unified Memory Programmin...

701
来自专栏WeTest质量开放平台团队的专栏

深度了解Android 7.0 ,你准备好了吗?

2016年8月22日,谷歌正式推送Android 7.0 Nougat(牛轧糖)正式版,首发推送了多款Nexus设备。除了修复常规BUG,Android 7.0...

833
来自专栏Python中文社区

Github|Python开源项目漫游指南(一)

Scikit-learn Scikit-learn是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量...

2187
来自专栏生信技能树

基因组重测序的unmapped reads assembly探究 【直播】我的基因组86

在前面的直播基因组系列,我们讲解过那些比对不少我们人类的参考基因组序列的数据,其实可以细致的进行探究。 直播】我的基因组(十五):提取未比对的测序数据 这里主...

38816
来自专栏ATYUN订阅号

深度学习图像识别项目(上):如何快速构建图像数据集

AiTechYun 编辑:yuxiangyu 在你还是个孩子时是否也是一个神奇宝贝迷?是否还记得里面的各种神奇宝贝,以及小智手中可以自动识别神奇宝贝的图鉴(Po...

1.5K6
来自专栏生信技能树

从WGS测序得到的VCF文件里面提取位于外显子区域的【直播】我的基因组84

首先要下载并且得到人类基因组的外显子坐标记录文件 这里我用的参考基因组版本仍然是hg19,所以去CCDS数据库里面下载对应版本,并且格式化成BED文件。 wge...

4129
来自专栏开源优测

JMeter定时器06

前言 在默认情况下,jmeter发送每个请求之间是没有延时的,如果采用默认方式,如果线程数足够大,瞬间就会将服务器压死。再则在实际的业务过程中,请求之间是有一定...

3686
来自专栏章鱼的慢慢技术路

用ARM实现音乐电子相册

1822
来自专栏后端云

compute node ha 主流开源实现

nova evacuate和热迁移很像。都是想实例从一个节点转移到另外一个节点。区别主要是热迁移在正常状态下进行的,疏散时在异常状态下进行的。用一个形象的比如就...

1303

扫码关注云+社区