前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ANNOVAR Filter-based Annotation

ANNOVAR Filter-based Annotation

作者头像
生信修炼手册
发布2020-05-11 10:31:30
1K0
发布2020-05-11 10:31:30
举报
文章被收录于专栏:生信修炼手册生信修炼手册

annnovar filter-based annotaton用于分析哪些变异位点是数据库中的已知位点,在判断时,除了染色体位置之外,allel也必须相同。region-based annotation 在分析时只考虑基因组位置,只要是存在overlap关系就会输出结果,而filter-based annotation会更加严格,首先要求基因组上的起始和终止位置必须完全一致,其次变异位点的allel也必须完全相同才行。

简而言之,filter-based annotation 就是在做一个数据库检索的工作,将和数据库中完全相同的记录输出出来,看上去就像在对原始输入文件进行一个筛选,所以叫做filter-based annotation。

对于filter-based annotatoin 而言,数据库众多,常用的数据库可以分成以下8个类别

1. 基于全基因组数据的突变位点频率数据库
  • 1000g2015aug
  • kaviar_20150923
  • hrcr1
  • cg69
  • gnomad_genome
2. 基于全外显子组数据的突变位点频率数据库
  • exac03
  • esp6500siv2
  • gnomad_exome
3. 特殊人群的突变位点频率数据库
  • ajews
  • TMC-SNPDB
  • gme
4. 基于全基因组数据的突变位点功能预测数据库
  • gerp++
  • cadd
  • cadd13
  • dann
  • fathmm
  • eigen
  • gwava
5. 基于全外显子数据的突变位点功能预测数据库
  • dbnsfp30a
6. 剪切区域的突变位点功能预测数据库
  • dbscsnv11
  • spidex
7 . 疾病相关的突变位点数据库
  • clinvar_20160302
  • cosmic70
  • icgc21
  • nci60
8. 通用的突变位点数据库
  • snp142
  • avsnp142

数据库非常的多,每个数据库的详细介绍可以参考annovar的官方文档。这些数据库文件都比较大,从几个G到上百G都有,所以就不一一展示了。这里以1000g2015aug为例,进行说明

第一步,下载数据库,命令如下

annotate_variation.pl -buildver hg19 -downdb 1000g2015aug humandb

第二步,进行注释,命令如下

annotate_variation.pl -filter -dbtype 1000g2015aug_all -buildver hg19 ex1.avinput humandb/

NOTICE: Variants matching filtering criteria are written to ex1.avinput.hg19_ALL.sites.2015_08_dropped, other variants are written to ex1.avinput.hg19_ALL.sites.2015_08_filtered
NOTICE: Processing next batch with 23 unique variants in 23 input lines
NOTICE: Database index loaded. Total number of bins is 2824642 and the number of bins to be scanned is 19
NOTICE: Scanning filter database humandb/hg19_ALL.sites.2015_08.txt...Done

输出文件有两个,在数据库中有记录的输出到后缀为hg19_ALL.sites.2015_08_dropped文件中,这个文件在输入文件的基础上新增了两列注释信息,内容如下

1000g2015aug_all    0.0676917
1000g2015aug_all    0.620607
1000g2015aug_all    0.843251
1000g2015aug_all    0.0227636
1000g2015aug_all    0.548922
1000g2015aug_all    0.903155

第一列表示数据库的名字,第二列表示1000G数据库中的突变位点在人群中的等位基因频率MAF。

在数据库中没有的记录就输出到后缀为hg19_ALL.sites.2015_08_filtered文件中。

从这个例子可以看到,filter-based annotation其实包含了两个含义:filter 和 annotation, 对于数据库中存在的突变位点,采用数据库中的注释信息进行注释;对于数据库中不存在的突变位点,筛选出来保存到一个单独的文件中。

在使用filter-based annotation时,数据库的选择是核心。这就要求对于常用的数据库非常了解,知道其中存储了哪些注释信息,应用起来才能得心应手。在之前的文章中也对其中部分数据库进行了简单介绍,大家可以参考。

对于annnvar 而言,gene-based annotation 提供了两种信息,与突变位点距离最近的基因和突变位点在基因组特征上的分布;region-based annotation 提供了变异位点与某段区域的overlap信息,这里的某段区域可以灵活选择,比如转录因子结合区,组蛋白集合区等等;filter-based annotation 提供了数据库检索和过滤功能,不同类型的数据库提供了多种类型的注释信息。总而言之,annovar 软件使用起来简单方便,但是理解诸多的数据库才是核心。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 基于全基因组数据的突变位点频率数据库
  • 2. 基于全外显子组数据的突变位点频率数据库
  • 3. 特殊人群的突变位点频率数据库
  • 4. 基于全基因组数据的突变位点功能预测数据库
  • 5. 基于全外显子数据的突变位点功能预测数据库
  • 6. 剪切区域的突变位点功能预测数据库
  • 7 . 疾病相关的突变位点数据库
  • 8. 通用的突变位点数据库
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档