一、基因预测
Prokka: rapid prokaryotic genome annotation,prokka 是一个命令行软件工具,可以在一台典型台式机上在约 10 分钟内充分注释一个细菌基因组草图。它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。prokka 是一个分析流程,里面包含了很多软件,依赖关系众多,不同软件又涉及到版本问题,还需要使用很多 perl 模块,这里强烈建议使用功能 bioconda 虚拟环境来进行安装。
软件官网:http://www.vicbioinformatics.com/software.prokka.shtml
二、软件安装
conda create -n prokka -y
conda activate prokka
conda install -y prokka
三、使用案例
prokka 的使用比较简单,只需要输入一个 fasta 格式的序列即可,因为拼接好的基因组数据量不大,很快就可以运行完成。
cp ../2/nanopore/flye/assembly.fasta mg.fasta
echo "time prokka mg.fasta --outdir prokka --prefix mg --metagenome --kingdom Archaea,Bacteria,Mitochondria,Viruses 1>prokka.log 2>prokka.err" >prokka.sh
bsub -q fat -n 8 -o %J.log -e %J.err sh prokka.sh
选项参数:
--outdir:输出结果目录
--prefix :输出结果前缀
--metagenome:标记,输入数据为宏基因组序列
--kingdom:处理哪些样品 Archaea|Bacteria|Mitochondria|Viruses
--gcode:密码子表
--setupdb:自动搜索并添加数据库
--listdb:测序数据库
--depends:列出依赖的软件
四、结果解读
扩展名 | 释义 |
---|---|
gff | 基因注释文件,包括 gff 和序列,可用 igv 直接查看 |
gbk | Genebank 格式,来自 gff |
fna | 输入 contig 核酸文件 |
faa | 基因的氨基酸序列 |
ffn | 基因的核酸序列 |
sqn | 用于提交的序列 |
fsa | 输入序列,但有 sqn 的描述,用于 tbl2asn 生成 sqn 文件 |
tbl | 特征表,用于 tbl2asn 生成 sqn 文件 |
err | 软件运行错误日志 |
log | 软件运行日志 |
txt | 统计结果 |
tsv | 所有注释基因特征表格 |
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。