前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【直播】我的基因组 30:使用软件把变异分类—添加tag

【直播】我的基因组 30:使用软件把变异分类—添加tag

作者头像
生信技能树
发布2018-03-08 10:15:12
1.1K0
发布2018-03-08 10:15:12
举报
文章被收录于专栏:生信技能树生信技能树

前面我们讲解了VCF文件的基础信息,其中第8列的信息可以无限丰富,但是通常我们的call variation的软件默认只给出有限的信息,有的甚至都不会告诉你该变异的基本分类,我们就需要自己做了,就是把第八列丰富起来。而且上一讲我们自己用脚本探究了一下VCF变异文件里面的测序深度分布,质量值分布,INDEL和SNV的分布,还有杂合和纯和的比例。其实也不用自己造轮子,现成的工具就可以做到:http://snpeff.sourceforge.net/SnpSift.html#VariantType

这个软件用法很简单

java -jar ~/biosoft/SnpEff/snpEff/SnpSift.jar varType realign.vcf >realign.varType

一小会儿就运行完毕了。

可以看到文件大小没有显著的变化,因为它仅仅是在VCF文件上面,增加一些tag即可。从本质上来说就是对于VCF文件定义的理解。

它首先把variation分成这几类:SNP、MNP、INS、DEL、MIXED(不理解的补充一下基础知识)

然后再区分纯和杂合:HOM/HET (跟上一讲是一样的)很明显判断纯和和杂合,靠的就是GT这一列的信息了。结合DP4来做判断,或者直接用GT信息即可。

那么接下来就对它注释好的tag进行统计即可。

cat realign.varType |perl -alne 'next if/^#/;/VARTYPE=(.*?)\s/;print $1' |sort |uniq -c

结果略微有一点诡异,虽然纯和杂合的比例,跟前面得到的结果类似。但是variation的分类我有点晕,得仔细探究那些多种分类是怎么回事!

我搜索了DEL、DEL、DEL、DEL的那6个情况,发现了一个奇怪的现象(如下图),有知道原因的请留言给我哦。

文:Jimmy、阿尔的太阳

图文编辑:吃瓜群众

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档