前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >VEP注释结果怎么看?

VEP注释结果怎么看?

作者头像
生信菜鸟团
发布2024-05-11 16:46:37
1220
发布2024-05-11 16:46:37
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

工欲善其事必先利其器

众所周知,对于VCF文件的注释常用的有VEP、SnpEff、ANNOVAR等,软件各有优势,选择哪个工具通常取决于具体的分析需求、数据类型和用户的技术背景。例如,VEP因其提供的丰富注释信息和易用性而被广泛使用。今天就先来详细了解一下VEP的注释结果。

至于VEP的入门介绍,详见:VEP — 高效的变异注释工具

1下载数据库文件

代码语言:javascript
复制
screen -R down
wget -c https://ftp.ensembl.org/pub/release-111/variation/indexed_vep_cache/mus_musculus_vep_111_GRCm39.tar.gz
##文件大小
1.7G 11月 28 02:08 mus_musculus_vep_111_GRCm39.tar.gz

##或者

wget -c https://ftp.ensembl.org/pub/release-111/variation/indexed_vep_cache/mus_musculus_merged_vep_111_GRCm39.tar.gz
##文件大小
5.4G 5月   7 15:24 mus_musculus_merged_vep_111_GRCm39.tar.gz

2实例运行

代码语言:javascript
复制
singularity exec vep.sif \
  vep --dir ~/vep_data/mouse \
      --species mus_musculus --merged \
      --cache --offline --format vcf --vcf --force_overwrite \
      --input_file ~/vep/mouse_test.filter.vcf.gz \
      --output_file ~/vep/vep_out/mouse_test_vepout.vcf \
      --plugin NMD

3结果文件

代码语言:javascript
复制
4.5G 5月   7 17:56 mouse_test_vepout.vcf
 18K 5月   7 17:56 mouse_test_vepout.vcf_summary.html
 59K 5月   7 17:56 mouse_test_vepout.vcf_warnings.txt
 
##297M的vcf文件,运行耗时2:15:56

4结果解读

注释前vcf文件

代码语言:javascript
复制
less -SN ../mouse_test.filter.vcf.gz |head -n 100 |tail -n 5 |cut -f 1-9

注释前

注释后vcf文件

代码语言:javascript
复制
less -SN mouse_test_vepout.vcf |head -n 105 |tail -n 5 |cut -f 1-10

注释后

增加了哪些信息?

代码语言:javascript
复制
##查看增加的列
cat mouse_test_vepout.vcf |grep -v "^#" |cut -f 8 |awk -F ";" '{print $NF}' |head

##查看注释分类
cat mouse_test_vepout.vcf|grep -v "^#"|cut -f 8|awk -F ";" '{print $NF}'|cut -d "|" -f 2|sort |uniq -c|sort -k1n

##查看一个具体的例子
cat mouse_test_vepout.vcf |grep -v "^#" |grep "upstream_gene_variant"|head -n 1 

info列

查看都有哪些变异信息:

代码语言:javascript
复制
$cat mouse_test_vepout.vcf|grep -v "^#"|cut -f 8|awk -F ";" '{print $NF}'|cut -d "|" -f 2|sort |uniq -c|sort -k1n
      1 inframe_insertion&NMD_transcript_variant
      1 mature_miRNA_variant
      1 protein_altering_variant&incomplete_terminal_codon_variant
      1 protein_altering_variant&splice_region_variant
      1 splice_acceptor_variant&5_prime_UTR_variant
      1 splice_acceptor_variant&NMD_transcript_variant
      1 splice_acceptor_variant&splice_donor_variant&splice_donor_5th_base_variant&non_coding_transcript_exon_variant&intron_variant
      1 splice_donor_variant&splice_donor_5th_base_variant&3_prime_UTR_variant&intron_variant
      1 splice_donor_variant&splice_donor_5th_base_variant&intron_variant&non_coding_transcript_variant
      1 splice_donor_variant&splice_donor_5th_base_variant&splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
      1 splice_donor_variant&splice_donor_region_variant&coding_sequence_variant&intron_variant
      1 splice_donor_variant&splice_donor_region_variant&non_coding_transcript_exon_variant&intron_variant
      1 start_lost&5_prime_UTR_variant
      1 start_lost&inframe_deletion&splice_region_variant
      1 start_lost&splice_region_variant&5_prime_UTR_variant
      1 stop_gained&frameshift_variant&start_lost
      1 stop_gained&inframe_deletion
      1 stop_gained&protein_altering_variant
      2 inframe_deletion&NMD_transcript_variant
      2 splice_acceptor_variant&non_coding_transcript_exon_variant
      2 splice_acceptor_variant&splice_polypyrimidine_tract_variant&intron_variant&NMD_transcript_variant
      2 splice_donor_5th_base_variant&intron_variant&NMD_transcript_variant
      2 splice_donor_variant&splice_donor_5th_base_variant&5_prime_UTR_variant&intron_variant
      2 stop_gained&NMD_transcript_variant
      2 stop_lost&3_prime_UTR_variant
      3 inframe_deletion&splice_region_variant
      3 missense_variant&splice_region_variant&NMD_transcript_variant
      3 non_coding_transcript_variant
      3 splice_acceptor_variant&coding_sequence_variant
      3 splice_acceptor_variant&non_coding_transcript_exon_variant&intron_variant
      3 splice_acceptor_variant&splice_polypyrimidine_tract_variant&intron_variant
      3 splice_acceptor_variant&splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
      3 splice_donor_variant&coding_sequence_variant
      3 splice_donor_variant&splice_donor_5th_base_variant&non_coding_transcript_exon_variant&intron_variant
      3 splice_region_variant&5_prime_UTR_variant&NMD_transcript_variant
      3 stop_gained&inframe_insertion&splice_region_variant
      4 frameshift_variant&start_lost
      4 splice_donor_variant&NMD_transcript_variant
      4 splice_region_variant&synonymous_variant&NMD_transcript_variant
      4 stop_gained&inframe_insertion
      4 stop_retained_variant&3_prime_UTR_variant
      5 frameshift_variant&start_lost&start_retained_variant
      5 splice_acceptor_variant&splice_donor_5th_base_variant&coding_sequence_variant&intron_variant
      5 splice_donor_variant&splice_donor_5th_base_variant&intron_variant
      6 frameshift_variant&NMD_transcript_variant
      6 splice_acceptor_variant&coding_sequence_variant&intron_variant
      6 splice_donor_variant&splice_donor_region_variant&intron_variant
      7 splice_region_variant&non_coding_transcript_variant
      7 stop_gained&frameshift_variant&splice_region_variant
      8 frameshift_variant&stop_lost
      9 incomplete_terminal_codon_variant&coding_sequence_variant
      9 splice_donor_region_variant&intron_variant&NMD_transcript_variant
      9 stop_gained&splice_region_variant
     12 splice_acceptor_variant&splice_donor_variant&splice_donor_5th_base_variant&splice_polypyrimidine_tract_variant&intron_variant
     13 splice_acceptor_variant&splice_donor_variant&splice_donor_5th_base_variant&coding_sequence_variant&intron_variant
     14 splice_region_variant&intron_variant&NMD_transcript_variant
     15 splice_region_variant&3_prime_UTR_variant&NMD_transcript_variant
     16 splice_region_variant&3_prime_UTR_variant
     16 stop_retained_variant
     19 protein_altering_variant
     19 splice_donor_variant&splice_donor_5th_base_variant&coding_sequence_variant&intron_variant
     26 stop_gained&frameshift_variant
     29 start_lost
     31 inframe_insertion&splice_region_variant
     34 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant&NMD_transcript_variant
     34 stop_lost
     49 frameshift_variant&splice_region_variant
     53 splice_donor_5th_base_variant&intron_variant&non_coding_transcript_variant
     57 splice_polypyrimidine_tract_variant&intron_variant&NMD_transcript_variant
     66 splice_acceptor_variant&non_coding_transcript_variant
     77 5_prime_UTR_variant&NMD_transcript_variant
     77 splice_region_variant&5_prime_UTR_variant
     84 splice_acceptor_variant
     88 splice_donor_variant
     99 splice_donor_variant&non_coding_transcript_variant
    104 missense_variant&NMD_transcript_variant
    113 synonymous_variant&NMD_transcript_variant
    148 splice_region_variant&intron_variant&non_coding_transcript_variant
    181 splice_donor_region_variant&intron_variant&non_coding_transcript_variant
    249 inframe_insertion
    252 splice_donor_5th_base_variant&intron_variant
    265 splice_region_variant&non_coding_transcript_exon_variant
    284 stop_gained
    344 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
    383 missense_variant&splice_region_variant
    474 inframe_deletion
    540 splice_region_variant&synonymous_variant
    558 splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
    624 3_prime_UTR_variant&NMD_transcript_variant
    873 splice_donor_region_variant&intron_variant
   1025 frameshift_variant
   1108 splice_region_variant&intron_variant
   2727 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant
   4697 splice_polypyrimidine_tract_variant&intron_variant
   8870 5_prime_UTR_variant
  21309 intron_variant&NMD_transcript_variant
  22383 missense_variant
  29654 synonymous_variant
  31913 3_prime_UTR_variant
  49286 non_coding_transcript_exon_variant
 293457 intron_variant&non_coding_transcript_variant
 295676 downstream_gene_variant
 296565 upstream_gene_variant
 958522 intergenic_variant
1239374 intron_variant
  1. Frameshift variant (移码变异): 插入或缺失导致从突变点开始的编码序列发生移位,进而影响其后的全部氨基酸序列。
  2. Missense variant (错义变异): 单个核苷酸的改变导致编码的氨基酸发生变化。
  3. Synonymous variant (同义变异): 单个核苷酸的改变不影响编码的氨基酸。
  4. Intron variant (内含子变异): 变异发生在基因的非编码区内含子上,可能影响基因的剪接。
  5. Splice region variant (剪接区域变异): 变异发生在剪接位点附近,可能影响mRNA的剪接。
  6. UTR variant (非翻译区变异): 发生在5' UTR或3' UTR区域的变异,可能影响基因的表达调控。
  7. Stop gained (获得终止密码子): 变异导致提前出现终止密码子,使得蛋白质提前终止。
  8. Stop lost (丢失终止密码子): 终止密码子发生变异,导致蛋白质翻译过程延长。
  9. Start lost (起始密码子丢失): 起始密码子的变异可能导致蛋白质的翻译启动受阻。
  10. NMD transcript variant (非正常剪接体变异): 变异可能导致产生非正常的mRNA剪接体,这类mRNA通常会被细胞的无用mRNA降解机制所降解。
  11. Coding sequence variant (编码序列变异): 变异发生在编码序列中,可能改变蛋白质的氨基酸序列。
  12. Non-coding transcript variant (非编码转录本变异): 变异发生在非编码转录本上,可能影响其功能或表达。
  13. Protein altering variant (蛋白质改变变异): 变异可能会改变蛋白质的结构和功能,但不一定是通过改变氨基酸序列。
  14. Downstream gene variant (下游基因变异): 变异发生在基因的下游区域,可能影响该基因的表达。
  15. Upstream gene variant (上游基因变异): 变异发生在基因的上游区域,可能影响该基因的表达。
  16. Intergenic variant (基因间变异): 变异发生在两个基因之间的区域,这些区域通常不编码蛋白质,但可能包含调控元件。

5举例说明

具体查看几个例子来理解一下

例一

代码语言:javascript
复制
cat mouse_test_vepout.vcf |grep -v "^#" |grep "upstream_gene_variant"|cut -f 8|head -n 1 |awk -F ";" '{print $NF}'
CSQ=C|upstream_gene_variant|MODIFIER|4933401J01Rik|ENSMUSG00000102693|Transcript|ENSMUST00000193812|TEC|||||||||||4733|1||MGI|||Ensembl||
  • T -> C 变异位点,T变为C
  • upstream_gene_variant:上游基因变异。
  • MODIFIER - 变异的影响级别,表明这种变异可能会对基因或蛋白质功能产生一定影响,但不是直接改变蛋白质序列的主要变异。
  • 4933401J01Rik - 变异影响的基因名称。
  • ENSMUSG00000102693 - 变异影响的基因的Ensembl ID
  • Transcript - 表明该注释关联的是一个转录本。
  • ENSMUST00000193812 - 受影响的转录本的Ensembl ID。
  • TEC - 转录本的生物类型,TEC 通常表示是一个技术性的转录本,可能不编码蛋白质。
  • 4733 - 表示变异位点距离最近的基因起始点的距离,此处为4733个核苷酸。

例二

代码语言:javascript
复制
$cat mouse_test_vepout.vcf |grep -v "^#" |grep "protein_altering_variant"|cut -f 8|head -n 1 |awk -F ";" '{print $NF}'
CSQ=GTA|protein_altering_variant|MODERATE|Cd244a|ENSMUSG00000004709|Transcript|ENSMUST00000004829|protein_coding|2/9||||340-341|208-209|70|Y/CN|tat/tGTAat|||1||MGI|||Ensembl||,GTA|non_coding_transcript_exon_variant|MODIFIER|Cd244a|ENSMUSG00000004709|Transcript|ENSMUST00000194170|retained_intron|2/5||||339-340|||||||1||MGI|||Ensembl||,GTA|protein_altering_variant&NMD_transcript_variant|MODERATE|Cd244a|ENSMUSG00000004709|Transcript|ENSMUST00000194797|nonsense_mediated_decay|2/7||||340-341|208-209|70|Y/CN|tat/tGTAat|||1||MGI|||Ensembl||,GTA|protein_altering_variant|MODERATE|Cd244a|18106|Transcript|NM_018729.2|protein_coding|2/9||||340-341|208-209|70|Y/CN|tat/tGTAat|||1||EntrezGene|||RefSeq||,GTA|protein_altering_variant|MODERATE|Cd244a|18106|Transcript|XM_006496695.5|protein_coding|2/8||||814-815|208-209|70|Y/CN|tat/tGTAat|||1||EntrezGene|||RefSeq||

记录1

  • GTA :变异的核苷酸序列。
  • protein_altering_variant :变异类型,表明这种变异可能改变蛋白质的结构和功能。
  • MODERATE :变异的影响级别,表明该变异对功能的影响中等。
  • Cd244a :变异影响的基因名称。
  • ENSMUSG00000004709 :变异影响的基因的Ensembl ID。
  • ENSMUST00000004829 :变异受影响的转录本的Ensembl ID。
  • protein_coding :转录本的类型,表明它编码蛋白质。
  • 2/9 :变异发生在第二个外显子,总共九个外显子。
  • 340-341 :变异位置在DNA序列的第340到341个核苷酸。
  • 208-209 :变异位置在编码序列的第208到209个核苷酸。
  • 70 :变异发生在蛋白序列的第70个氨基酸。
  • Y/CN - 氨基酸由酪氨酸(Y)变为一个不明确的氨基酸(CN)。
  • tat/tGTAat - 描述了DNA层面的突变情况,原始的序列是tat,变异后是tGTAat。

记录2

  • non_coding_transcript_exon_variant :变异类型,表明变异发生在非编码转录本的外显子上。
  • retained_intron :转录本类型,意味着这个转录本保留了内含子。

记录3

  • protein_altering_variant&NMD_transcript_variant - 同时具有蛋白质改变和非正常剪接体(NMD)的标记。
  • nonsense_mediated_decay - 转录本类型,表明这是一个可能因含有无意义突变而被降解的转录本。

记录4和5

  • EntrezGeneRefSeq :表示这些记录使用来自EntrezGene和RefSeq的基因和转录本标识符,表明使用了NCBI的数据源来注释这些变异。
  • NM_018729.2, XM_006496695.5 :NCBI的转录本ID,不同的版本表示不同的转录本形式。

例三

代码语言:javascript
复制
$cat mouse_test_vepout.vcf |grep -v "^#" |grep "intron_variant"|cut -f 8|head -n 1 |awk -F ";" '{print $NF}'
CSQ=G|downstream_gene_variant|MODIFIER|Xkr4|ENSMUSG00000051951|Transcript|ENSMUST00000070533|protein_coding|||||||||||4499|-1||MGI|||Ensembl||,G|intron_variant&non_coding_transcript_variant|MODIFIER|Xkr4|ENSMUSG00000051951|Transcript|ENSMUST00000159265|protein_coding_CDS_not_defined||1/1||||||||||-1||MGI|||Ensembl||,G|intron_variant&non_coding_transcript_variant|MODIFIER|Xkr4|ENSMUSG00000051951|Transcript|ENSMUST00000162897|protein_coding_CDS_not_defined||1/1||||||||||-1||MGI|||Ensembl||,G|downstream_gene_variant|MODIFIER|Xkr4|497097|Transcript|NM_001011874.1|protein_coding|||||||||||4499|-1||EntrezGene|||RefSeq||,G|intron_variant|MODIFIER|Xkr4|497097|Transcript|XM_006495550.5|protein_coding||3/3||||||||||-1||EntrezGene|||RefSeq||

记录 1

  • A -> G 变异碱基,A突变为G
  • downstream_gene_variant : 下游基因变异
  • MODIFIER :变异的影响程度,表明这种变异可能对基因或蛋白功能有一定影响,但通常影响较小。
  • Xkr4 :受影响的基因名称。
  • ENSMUSG00000051951 :基因的Ensembl ID。
  • ENSMUST00000070533 :受影响的转录本的Ensembl ID。
  • protein_coding :转录本类型,表明它编码蛋白质。
  • 4499 :变异位点距离基因编码区下游的距离,单位为核苷酸。

记录 2 和 3

  • intron_variant & non_coding_transcript_variant :表明变异同时影响内含子区域和非编码转录本。
  • protein_coding_CDS_not_defined :转录本类型,表明尽管这是一个编码蛋白质的基因,但对于这些特定转录本,其编码区(CDS)未明确定义。
  • 1/1 - 表示这些转录本只包含一个内含子。

记录 4

  • EntrezGeneRefSeq :数据来源,使用了EntrezGene和RefSeq的基因及转录本标识符
  • NM_001011874.1 :NCBI中的转录本ID及定版本号。
  • 4499 :变异位点距离基因编码区下游的距离。

记录 5

  • intron_variant :变异类型,表明变异发生在内含子中。
  • XM_006495550.5 :另一个NCBI转录本ID及版本号。
  • 3/3 :表示变异发生在第三个(也是最后一个)内含子。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1下载数据库文件
  • 2实例运行
  • 3结果文件
  • 4结果解读
    • 注释前vcf文件
      • 注释后vcf文件
        • 增加了哪些信息?
        • 5举例说明
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档