首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

annovar注释(一):注释文件的准备

当我们获取感兴趣的变异位点时,往往要通过注释去了解变异发生在基因的什么位置,起到了什么作用等。注释软件目前常用的是annovar和snpEff,两种软件有着各自的优缺点,有兴趣可以看一下参考网站1,系统的介绍了snpEff、annovar等注释软件的区别。

不管你用什么平台,不管你要注释何种变异类型,用法都大致相似,有几个文件是不可或缺的,其一是基因组文件(fna或者fa文件),其二就是已有的注释信息文件(gff或者gtf文件),然后处理成软件需要的格式即可。关于各文件的信息解读,格式可以查阅NCBI等网络资料,有时间我也会总结分享给大家。好了,接下来要进入正题。

第一种情况:物种为人

在安装annovar之后会存在示例基因数据库,其中一个就是人的(annovar/humandb),因为存在数据库,所以可以不经过处理,直接进行注释。而如果不想使用自带的数据库文件,可以下面第二种或第三种方法自己构建数据库。

第二种情况:在UCSC和Annovar网站上有相应的数据库文件的物种

可以去UCSC或者Annovar网站上去下载相应的数据库文件,之后和第一种方法相同,处理之后可以直接使用。处理过程主要是下载基因定义文件、基因组序列文件以及生成转录本信息文件。

下载基因定义文件:

annotate_variation.pl-downdb -buildver panTro2 gene chimpdb

#此步骤会下载并生成refgene.txt文件

下载基因组序列文件:

annotate_variation.pl--buildver panTro2 --downdb seq chimpdb/panTro2_seq

#此步骤会下载基因组序列,用于生成转录本信息文件fa

生成转录组信息文件:

retrieve_seq_from_fasta.plchimpdb/panTro2_refGene.txt -seqdir chimpdb/panTro2_seq -format refGene-outfile chimpdb/panTro2_refGeneMrna.fa

#输入文件:refgene文件

#输出文件:转录组信息文件fastq格式

从上面的处理方法,我们注意到只需要准备三个文件:参考基因组信息文件refgene.txt、基因组文件ref.fa以及转录本信息文件refGeneMrna.fa,对于数据库中没有的物种,就需要手动去准备这三个文件。

第三种情况:其他物种

1.生成基因组定义文件refGene.txt

首先在下载基因组文件,通过wget或者其他手段,不再赘述。

下载注释gtf文件:如果没有gtf文件,可以下载gff文件,之后用cufflink软件包中的gffread软件将gff文件转化为gtf文件

gffread test_genomic.gff -T -otest_genomic.gtf

gff文件信息:

gtf文件信息:

接下来用gtfToGenePred软件生成GenePred文件(txt文件,refgene文件)

gtfToGenePred-genePredExt test_genomic.gtftest_refGene.txt

可选参数-geneNameAsName2,添加该参数可以改变refGene.txt文件中的输出信息,将基因信息一列在基因名称和基因id之间切换。

gtfToGenePredtest_genomic.gtf -genePredExt -geneNameAsName2test_refGene.txt

添加-geneNameAsName2参数(基因名称):

不加-geneNameAsName2参数(基因ID):

2.生成转录信息文件(transcript FASTA,refGeneMrna.fa)

perl retrieve_seq_from_fasta.pl -format refGene -seqfiletest_genomic.fna test_refGene.txt --outfiletest_refGeneMrna.fa

#由于是自己创建annovar基因组信息文件,所以在设定参数时-format参数设置为refGene,-seqdir直接改为-seqfile(因为此时不是指定基因组序列的目录,而是直接给出了基因组文件),后面直接给出下载的原始参考基因组文件以及上一步生成的refGene.txt文件

#对于密码子而言,我们定义在DNA序列上一个(三联码)密码子序列"XTG……STP"为ORF(Openreadingframe,开放阅读框),这里XTG代表原核生物中常用的基因起始密码子ATG、CTG、GTG和TTG,STP代表常用的基因终止密码子TAA、TGA和TAG,且序列内部不存在任何与XTG同相位的STP密码子。假如一个ORF中的XTG是距离与它同相位的5'端前一个STP最近的XTG,我们定义它为LORF(LongestORF,最长ORF)。

test_refGeneMrna.fa文件信息示例:

因为是自己创建的转录本信息文件,所以此处需要核实转录本信息,主要是查看每个基因的起始的三个碱基,如果是绝大多数转录本都是以起始密码子开始的,就可以放心使用了。

有几点需要注意:

Annovar注释过程中对文件名的要求很严格,对于每个文件,物种编号或者基因组编号一定要对应,比如上面的test;其次是编号后面的信息,基因组信息文件是refGene.txt,转录本信息文件是refGeneMrna.fa。

在生成refGene.txt,至于是否使用参数-geneNameAsName2,取决于注释之后的分析流程,如果常使用基因名称,就使用该参数,反之就不用。当然,如果已经处理好了,也不用重新再走一遍流程,可以后期写一个脚本处理一下,提取基因ID和基因名称之间的对应关系,如果嫌麻烦,也可以重新走一遍流程。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180730G1V2SE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券