前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BUSCO | 基因组组装完整性评估

BUSCO | 基因组组装完整性评估

作者头像
生信real
发布2022-08-18 09:05:31
3K0
发布2022-08-18 09:05:31
举报
文章被收录于专栏:Linux基础入门Linux基础入门

前言

BUSCO能利用单拷贝同源基因数据库对基因组序列的完整性进行分析。BUSCO的核心原理是调用hmmsearch将待分析的基因组(转录组序列或蛋白序列)和单拷贝同源基因数据库进行比较,最终得到全基因组(转录组或蛋白序列)对数据库中单拷贝同源基因覆盖的比率。不同物种分类具有不同的单拷贝同源基因数据库,本期以细菌的单拷贝同源基因数据库为例,评估三个株系的沃尔巴克氏菌(Wolbachia)的基因组完整性。

BUSCO软件官网

代码语言:javascript
复制
https://busco.ezlab.org/

BUSCO软件安装

编译安装需要安装其他依赖软件以及必要的python模块,十分繁琐。推荐直接使用conda安装。

代码语言:javascript
复制
### 创建一个新的conda环境安装BUSCO
conda create -n busco -y busco=5.3.2 

BUSCO数据库下载

代码语言:javascript
复制
# 列出数据框信息
busco --list-datasets
# 下载细菌数据库
busco --download bacteria_odb10

数据库网站:https://busco-data.ezlab.org/v4/data/lineages/。 可通过网站获取下载地址通过"wget"下载或者通过网站进行下载后传入服务器。

BUSCO示例数据下载与处理

代码语言:javascript
复制
# 下载三个株系的沃尔巴克氏菌基因组
wget -O wMel_KL_genome.fna.gz \
https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/907/525/GCF_002907525.1_ASM290752v1/GCF_002907525.1_ASM290752v1_genomic.fna.gz;
wget -O wMel_AMD_genome.fna.gz \
https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/907/445/GCF_002907445.1_ASM290744v1/GCF_002907445.1_ASM290744v1_genomic.fna.gz;
wget -O wRi_genome.fna.gz \
https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/022/285/GCF_000022285.1_ASM2228v1/GCF_000022285.1_ASM2228v1_genomic.fna.gz
# 解压基因组
gunzip *.gz

BUSCO软件常用参数

代码语言:javascript
复制
-i :输入FASTA格式的序列文件。可以是基因组序列、转录组序列或蛋白序列文件;
-c : 设置用于计算的线程数;
-o : 设置输出文件夹和输出文件名;
-m : 设置BUSCO运行的模式。有三个模式:geno(基因组)、tran(转录组)、prot(蛋白);
-l : 输入单拷贝同源基因数据库的路径。

BUSCO软件使用案例

代码语言:javascript
复制
## 批量运行BUSCO对三个基因组进行分析
ls *.fna | while read i ; do busco -i $i -c 4 -m geno -l busco_downloads/lineages/bacteria_odb10 -o busco_${i%.fna*}_out ;done;
## 将上一步生成的三个基因组的short_summary.txt文件移动到busco_plot文件夹内准备绘图
mkdir busco_plot
mv busco_wMel_KL_genome_out/short_summary.specific.bacteria_odb10.busco_wMel_KL_genome_out.txt busco_plot/
mv busco_wRi_genome_out/short_summary.specific.bacteria_odb10.busco_wRi_genome_out.txt busco_plot/
mv busco_wMel_AMD_genome_out/short_summary.specific.bacteria_odb10.busco_wMel_AMD_genome_out.txt busco_plot/
# 绘图
generate_plot.py -wd busco_plot/

BUSCO软件主要结果文件

代码语言:javascript
复制
# 主要结果信息文件
short_summary.specific.bacteria_odb10.busco_wMel_AMD_genome_out.txt
short_summary.specific.bacteria_odb10.busco_wMel_KL_genome_out.txt
short_summary.specific.bacteria_odb10.busco_wRi_genome_out.txt
# 查看结果文件(以wMel_AMD_genome为例)
cat short_summary.specific.bacteria_odb10.busco_wMel_AMD_genome_out.txt
# 结果文件信息(以wMel_AMD_genome为例)
 C:78.2%[S:78.2%,D:0.0%],F:4.8%,M:17.0%,n:124    
 97 Complete BUSCOs (C)      
 97 Complete and single-copy BUSCOs (S)    
 0 Complete and duplicated BUSCOs (D)    
 6 Fragmented BUSCOs (F)      
 21 Missing BUSCOs (M)      
 124 Total BUSCO groups searched 

结果解读(以wMel_AMD为例):使用的bacteria_odb10数据库中共有124个BUSCO groups,其中78.2%的BUSCO groups被完整比对上(包括78.2%单拷贝和0.0%多拷贝),4.8%部分比对上,17.0%没有比对上。通常用完整比对上的占总共的BUSCO groups的比例作为BUSCO的重要结果,越高越好,这里是78.2%。

输出图片:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信百宝箱 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
    • BUSCO软件官网
      • BUSCO软件安装
        • BUSCO数据库下载
          • BUSCO示例数据下载与处理
            • BUSCO软件常用参数
              • BUSCO软件使用案例
                • BUSCO软件主要结果文件
                相关产品与服务
                数据库
                云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档