背景
用于转录组和基因组组装质量进行评估的软件,前面介绍了quast,今天的是busco,对于动物植物较大的基因组拼接结果评估,这个软件很好用。
busco简介
BUSCO(Benchmarking Universal Single-Copy Orthologs)主要用于转录组和基因组组装质量进行评估的软件。BUSCO 对拼接结果的评估与 quast 不同,它并不追求基因组拼接的长度,而关注的是是否将一些单拷贝直系同源基因拼接出来。在相近的物种之间总有一些保守的序列,而 BUSCO 就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。
BUSCO 评估的原理其实不难,软件根据 OrthoDB 数据库,构建了几个大的进化分支的单拷贝基因集。将拼接结果预测得到的基因集与该基因集进行比较,根据比对上的比例、完整性,来评价拼接结果的准确性和完整性。也就是比对上已知基因集的基因越多,说明拼接的结果越好。
软件官网:https://gitlab.com/ezlab/busco
数据下载:https://www.orthodb.org/?page=filelist
可以从 http://busco.ezlab.org/下载,包括以下内容。Bacteria: 细菌(5609),Eukaryotes 真核生物(1271),Viruses 病毒(6488),Archaea 古细菌 404)。
摘自大蒜基因组与枇杷基因组文章
软件安装:
mamba create -n busco -y busco=5.2.2
配置数据库运行
选择自己近源物种下载。
conda activate busco
#列出数据库
busco --list-datasets
#下载数据
busco --download bacteria_odb10
busco -i kmer45.scafSeq -o busco -m geno -c 12 --offline -l busco_downloads/lineages/bacteria_odb10/
#利用 busco 结果绘图
generate_plot.py -wd busco
选项参数:
-o 输出文件夹
-in 输入文件 (基因组组组装文件、转录组组装文件,基因预测文件,全为 fasta 格式) t
-l 保守序列文件(Lineage data
-m 分析的模式。包括基因组组装评估(all)、转录组组装评估(OGS)以及基因预测评估(trans)
其他选项
-sp :做 AUGUSTUS 用于训练的物种名字
-e :blast 的 e 值 Default: 0.01
-flank:AUGUSTUS 做预测时向两侧延伸的长度 Default: 根据基因组大小在 5 到 20kbp 之间
-f 更新之前的运行结果
这就是busco结果,完全覆盖且单拷贝的基因是蓝色标注的,基本都超过了60%,也就是比对上已知基因集的基因多,说明拼接的结果较好,比较完整。
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。