专栏首页小白鱼的生统笔记叶绿体基因注释工具PGA安装及使用简介

叶绿体基因注释工具PGA安装及使用简介

叶绿体基因注释工具PGA

PGA(Plastid Genome Annotator)是今年新开发出来的叶绿体基因组注释工具。与目前现有的工具相比,它采用了反向BLAST搜索的方法确定基因在叶绿体基因组上的位置,并使用了新开发的基因和内含子特征边界检测算法,使注释准确性和灵活性有效提升。今天白鱼小编就带大家了解一下它。

PGA下载安装

Github链接:https://github.com/quxiaojian/PGA。

Github链接中有对该软件的详细介绍,包括功能模块说明、使用简介、结果部分的摘要、参考文献等,帮助大家快速上手软件使用,可仔细阅读。

根据软件说明,该软件目前对于Windows、Linux以及Mac环境均支持,直接在Github中下载即可使用。PGA的主程序是个perl脚本(PGA.pl),因此前提要求你在电脑中已经安装了perl,通过perl来调用PGA。例如在Linux环境下,shell命令行中使用“perl PGA.pl”,即可直接调用程序。

由于PGA的功能注释功能通过参考基因序列和目标基因组的同源比对来实现,比对使用到BLAST工具,因此前提也需要你在电脑中已经安装了BLAST。

##如在 linux 环境下
 
#本地尚未安装 BLAST 的话,可直接使用 conda 安装
#conda install blast
#或者在 NCBI 中下载源码编译
#ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
#安装完成后记得一定要将 BLAST 添加至环境变量中
 
#perl 的话一般 linux 的电脑上都有吧
#没有的话安装一个也不费事,源码编译或 conda 安装等都可以
 
#PGA 主程序调用,如我的 PGA 路径在 /home/lyao222lll/software/PGA/
perl /home/lyao222lll/software/PGA/PGA.pl
 
#如果你已经将 PGA 路径添加在 ~/.bashrc 环境变量中,例如
#export PATH=/home/lyao222lll/software/PGA/:$PATH
#并且已对 PGA.pl 添加可执行权限:chmod -R 755 /home/lyao222lll/software/PGA/*
#此时直接在 shell 命令行输入 PGA.pl 即可直接使用了

调用一下,能看到帮助选项就是没啥问题了。

各参数详情也很简单易懂,PGA路径中的“README.md”说明中也有相关简介。

PGA测试使用

文件准备

好了接下来我们使用PGA提供的测试数据,也就是PGA路径中的“test/angiosperms或gymnosperms”,进行叶绿体序列注释,测试软件使用。

就以“test/angiosperms”为例吧。其中包含两个子文件夹,一个放置GenBank格式的参考叶绿体基因组文件(reference/Amborella_trichopoda.gb,含参考基因组序列及蛋白编码基因、非编码RNA注释等),一个放置待注释的叶绿体基因组fasta文件(target/Rosa_roxburghii.fasta)。

我们看到PGA提供的示例数据中,两个子文件夹中各只放了一条序列,在实际操作中,可以多放几条序列在里面。比如说你使用自己的叶绿体基因组时,对于参考序列,可从NCBI中下载GenBank格式的近缘物种的叶绿体基因组文件,这时候多下载几个吧,多一点肯定没问题,提供更多的参考序列可以使注释结果更完全一些。

好了也介绍的差不多了,以下使用“test/reference/Amborella_trichopoda.gb”同源注释“target/Rosa_roxburghii.fasta”。

PGA注释程序运行

参照Github中的说明,或者“README.md”中的说明,我们先使用默认参数作注释。

#默认运行,分别指定放置有参考基因组或目标基因组文件的路径
perl /home/lyao222lll/software/PGA/PGA.pl \
-r /home/lyao222lll/software/PGA/test/angiosperms/reference \
-t /home/lyao222lll/software/PGA/test/angiosperms/target
 
#上命令的其它参数使用默认值,即等价于
perl /home/lyao222lll/software/PGA/PGA.pl \
-r /home/lyao222lll/software/PGA/test/angiosperms/reference \
-t /home/lyao222lll/software/PGA/test/angiosperms/target \
-i 1000 -p 40 -q 0.5,2 -o gb -f circular -l warning
 
#各参数详情查看下PGA路径中的“README.md”说明即可
#一般情况下,默认参数就可以了,或者视情况修改参数以使效果更佳

然后等待一小会儿,其实很快就注释完成了。

默认将结果输出在当前工作路径下(当然你也可以通过 -o 参数指定输出位置)。结果文件夹“gb”,里面存放注释结果文件,也是GenBank格式的,以“.gb”后缀;同时也会一并生成日志文件,以“.log”后缀。

日志文件可用于辅助检查注释结果,这里暂且先不关注它,主要查看注释结果。

以示例文件为例,得到“Rosa_roxburghii.gb”。我们打开它,和常规的GenBank格式一样,结果文件中前半部分是注释得到的基因或RNA的名称、位置等信息,后半部分是基因组核酸序列。

总之,软件测试通过了,怎么样,使用起来还是挺简单方便的吧。不过有这么几个小问题需要注意下。

首先,对于每个注释得到的gene,并没有按其在基因组中的先后顺序展示出来,得想办法先排个序。

其次对于CDS编码区,未能提供翻译后的氨基酸序列,后面可能还需根据注释结果找到那段核酸序列,结合codon_start、transl_table信息,自己再找工具翻译下。

此外,检查是否存在没有注释出来的基因或RNA也是不可或缺的。这里作为测试软件使用,我就不再仔细看它了。而在实际情况中,对于存在遗漏未注释出来的基因,基本上是不可避免的,参考基因组和目标基因组之间的差异越大,越容易出现未注释到的基因。所以大家对自己叶绿体基因组注释后记得一定要仔细检查,尽管这一过程进行起来非常繁琐的。对于未注释出来的结果,可以更改软件参数试一下,以及再结合其它的叶绿体注释工具(如GeSeq等,我之前介绍GeSeq的时候也简单提过如何手动定位未注释出来的基因),尽可能不要遗漏基因。

关于其它类型的注释文件如gff、tbl等文件的获取,可以通过我们获得的gbk文件做个转换。BioPerl、Biopython等工具包提供了这类的转化命令,使用起来很方便,就不多提了,大家可自行搜索下。

PGA和GeSeq等其它工具的比较

PGA作者在文章中提到,PGA与目前现有的工具相比更加高效,如下文章中的部分截图(比较了PGA和GeSeq)。这儿我就没再做额外的测试比较两种注释工具的区别了,相信作者是严谨的。我先前一直在用GeSeq,的确它会有很多基因由于内含子的问题不能注释完全,但是可以手动检查去确定基因边界,补全它们。不过话说回来GeSeq的体验感还是蛮不错的。

尽管如此,我们最好还是多个软件都跑一下,综合选择注释结果。

本文分享自微信公众号 - 小白鱼的生统笔记(gh_5f751e893315),作者:生信小白鱼 鲤小白

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 常见的群落相似性或距离测度的计算

    前篇已经初步讲述了关于群落多样性分析中的Beta多样性基本概念,并提到常见的Beta多样性分析方法一般建立在群落相似性/或距离测度的基础上,以及初步介绍了有关群...

    用户7585161
  • 广义线性模型(GLM)概述及负二项回归应用举例和R计算

    前述简介了几种一般线性模型(general linear model),如简单线性回归、多项式回归、多元线性回归等,它们基于普通最小二乘法(ordinary l...

    用户7585161
  • R语言绘制物种Rank-abundance曲线

    在微生物16S/ITS/18S测序分析报告中,我们经常可以看到这样的图,称为Rank-abundance曲线。

    用户7585161
  • 构建 docker 镜像

    通过 Dockerfile 可以快速构建镜像,而通过 commit 生成镜像可以解决应用在部署过程中有大量交互内容以及难以通过 Dockerfile 构建的问题...

    砍柴的废柴
  • Windows server 2012 AD 证书 服务搭建

    刘銮奕
  • Golang程序性能分析

    程序性能分析我相信是每个程序员都会遇到的问题,比如说一个程序的CPU为什么占用这么高?有没有优化的空间?又比如程序出现了内存泄漏如何排查等等。如果是C++程序会...

    用户2937493
  • cordova android

    祈澈菇凉
  • docker 挂载文件不同步问题记录

    今天上午开发给我反应一个问题,所在宿主机上更改了挂载的文件在 docker 里面看不到改变,问我是不是 docker 启动的时候挂载的时候有问题,我说不可能啊,...

    张琳兮
  • 2018-11-07 史上最全Vim快捷键键位图 -- 入门到进阶史上最全Vim快捷键键位图 -- 入门到进阶

    本文所有键位图虽然都不是博主原创,但是所有资源均为博主亲自收集整理。如需全文转载,希望尊重原作者和博主的劳动成果,保留原文链接。 本文所有图片为了方便读者使用均...

    Albert陈凯
  • mysql常用命令

    由于种种原因,最近准备换PHP的系统,研究一下DEDE和DISCUZ,结果发现环境很难搭建,最后找了个EXP,才终于搭建成功。装了个MYSQL,结果发现没有图形...

    Tony老师

扫码关注云+社区

领取腾讯云代金券