首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >VCF(variant call format)文件格式详解

VCF(variant call format)文件格式详解

作者头像
生信编程日常
发布2020-04-01 16:16:14
2.4K0
发布2020-04-01 16:16:14
举报

vcf格式是做变异(variant)分析的时候最常见的一种格式,主要包括一些header和位点的信息。可以参考这个说明文档学习:https://www.internationalgenome.org/wiki/Analysis/vcf4.0/

以下以GIAB中的GM12878的数据为例(ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/latest/GRCh38/ ),看一下其中的变异信息。

header前面都有"#"开头,开始包含vcf的版本信息,代码信息,染色体的长度信息等 (只截了一部分)。

header

位点信息:

variant information

也可能是这样:

another example

第一列 CHROM:染色体。 第二列 POS:基因组位置。 第三列 ID:变异位点的rsID号,如果没有的话用"."表示。 第四列 REF:与参考基因组一样的位点。 第五列 ALT:与参考基因组不一样的位点。 第六列 QUAL:call出这个位点的质量。这个值等于-10log10(p),p值是call错alt allele错误的概率。也就是QUAL越大出错概率越小。 第七列 FILTER:对变异位点进行过滤,如果通过则为PASS,如果没有进行过滤就是"."。 第八列 INFO:这一列是额外信息。可能是像第一个图一样是平台的信息,也可以是像是第二个中的DP等的信息:

INFO

第九列 FORMAT:最后是比较让人注意的Genotype也就是基因型等的信息,比较重要的是GT,DP和AD:

GT,即genotype,表示为0/1, 1/1, 0/0或者是0|1, 1|0, 0|0, 1|2等。其实0代表REF allele,1代表第一个ALT allele,2代表第二个ALT allele。比如第四列REF是A,第五列ALT是C,T(有两个ALT)。某个人是A/C,那么基因型就是0/1,A/T的话就是0/2,C/C就是1/1,以此类推。此外还可能见到0|1或者1|1中间是竖线不是斜线的情况,这种是已经phased的genotype,也就是已经知道REF/ALT allele是来自于父亲还是母亲了。比如有的数据库的phased的数据是|前的是父亲的allele,|后的是母亲的allele。比如REF是A,ALT是C,T;基因型为1|0,则父亲是第一个ALT也就是C,母亲是REF也就是A。不过对于有的phased数据而言第一个并不一定是父亲。

DP:这个位点的深度。

AD: REF和ALT allele的深度。太浅的话结果Genotype可能不这么让人信服。

最后是sample的信息,如例子中只有HG001,也就是GM12878。

欢迎关注公众号!

生信编程日常

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档