Hello,小伙伴们大家好。相较于下游的注释与功能分析,从复杂的宏基因组数据中准确地拼装并重构微生物基因组,始终是该领域的核心任务之一,近期小编学习从宏基因组测序数据中构建微生物组装基因组(MAGs)的相关流程。。
目前,从reads到MAGs的流程,通常包括原始数据的预处理、组装、binning以及质量控制等关键步骤。随着测序深度的增加和工具算法的持续优化,MAGs的数量呈现爆发式增长,但如何高效、可靠地获取高质量基因组,仍然面临许多挑战。例如,低丰度物种的组装困难、binning准确性受限、不同研究之间缺乏统一的质量标准等,都是当前广泛关注的问题。
2023年,《Trends in Microbiology》发表了一篇题为 “Recovering metagenome-assembled genomes from shotgun metagenomic sequencing data: Methods, applications, challenges, and opportunities” 的综述文章,系统梳理了该领域的研究进展。文章围绕宏基因组组装基因组的主流方法,探讨了其在微生物多样性挖掘、功能解析等方向的实际应用,并深入剖析了当前流程在准确性、可重复性和标准化方面所面临的瓶颈,最后还展望了多组学整合与新一代组装算法在未来可能带来的突破。
对于正在从事宏基因组研究,尤其是希望重构MAGs并深入挖掘微生物组功能潜力的研究者而言,这篇综述提供了十分有价值的参考与方法指导。
摘要
参考基因组对于解析微生物群的代谢能力和功能潜力具有重要意义。然而,由于大多数微生物难以培养,目前可用的微生物基因组资源依然十分有限。基因组binning作为一种无需培养的技术手段,可以通过高通量鸟枪法宏基因组测序获得的短reads,批量构建微生物基因组。在本综述中系统梳理了常用的宏基因组组装基因组(MAGs)重建方法,旨在帮助研究人员在众多复杂的软件和流程中选择合适的分析工具。此外,本综述还对利用宏基因组测序数据恢复MAGs的应用前景、面临的挑战和未来机遇进行了探讨。
典型的鸟枪法宏基因组学研究通常包括五个基本步骤:研究设计、样本采集与测序、测序数据预处理、序列分析,以及结果的后处理与验证。在宏基因组研究中,构建MAGs是一种高效的信息挖掘手段。Saheb Kashaf等人曾提出基于短reads鸟枪法宏基因组测序数据构建微生物草图基因组的具体流程。
常规的微生物基因组构建流程大致可分为三个核心模块:(i)测序reads的预处理,包括接头去除、质量控制和宿主基因组序列过滤;(ii)MAGs的重建,涉及组装、binning和质量优化;(iii)MAGs的定量与注释,包括丰度计算、分类鉴定和功能注释。根据研究目的,这些MAGs还可进一步用于功能分析、系统发育分析、生物标志物筛选、泛基因组分析、群体水平的SNP识别以及病毒基因组宿主预测等下游应用。

高通量测序平台通过在建库过程中添加双端indexed barcodes,可以同时对多个样本进行测序,从而区分每个样本的测序reads。然而,从样本采集、DNA提取、文库构建到测序,每个步骤都可能引入来自宿主、人类或周围环境的污染物。同时,文库制备和测序过程中还会产生序列错误、碱基含量偏差和序列高表达等问题。因此,测序reads的预处理对于后续分析至关重要。
目前已有多种软件可用于测序接头去除和质量控制(见表1)。其中,Trimmomatic是一款流行的工具,能有效去除低质量reads,但仅适用于Illumina平台的测序数据。此外,Trim Galore集成了FASTQC和Cutadapt,可用于所有高通量测序平台的数据,进行低质量和接头序列的剪切。Fastp则可以自动识别接头序列,快速完成质量控制和接头去除,并能同时生成JSON和HTML格式的结果报告。

对于宿主污染序列的去除,可以将reads比对到宿主基因进行过滤。BWA和Bowtie 2是常用的短序列reads比对工具。此外,Samtools和Bedtools等软件可用于文件格式转换等操作。SeqKit是一款功能强大的FASTA/Q文件处理工具,支持统计、格式转换、搜索、过滤、提取、去重、拆分、乱序和抽样等多种操作。MultiQC程序可汇总多个工具和样本的结果,并生成可视化报告文件。此外,KneadData是一款集成上述多项功能于一体的新型流程,支持质量控制、接头去除和宿主基因组序列去除,非常适合用于宏基因组和宏转录组测序数据的预处理。
宏基因组组装是指将短的宏基因组测序reads进行de novo拼接,生成较长的contig序列。目前,主流的宏基因组组装方法以graph-based算法为主,包括Overlap-Layout-Consensus(OLC)算法和de Bruijn graph(DBG)算法。其中,基于k-mer组分的DBG算法是短reads宏基因组组装中最常用的方法。OLC算法则通过成对reads之间的重叠关系组装更长的contig,但由于其在短reads数据中的误差率较高,因此很少应用于这类数据。随着长reads测序技术的发展,OLC算法又重新受到关注并被广泛应用。
目前,基于DBG算法的主流组装软件有很多(见表2),如 metaSPAdes、MEGAHIT、SOAPdenovo2、IDBA-UD 和 Minia。这些软件均支持multi-k-mer(多k-mer)组装,这也是序列组装中常用的策略。已有多项研究对不同de novo组装软件在多种环境来源的宏基因组测序数据及模拟数据集上的组装性能进行了系统评估。在众多组装软件中,metaSPAdes 和 MEGAHIT 是最为推荐的。metaSPAdes 由 SPAdes 升级而来,专为宏基因组测序数据设计,能够有效组装较长的 contig,并能较高比例地将 reads 组装进 contig,整体表现优秀。但需要注意的是,metaSPAdes 也存在错误组装率上升、对时间和内存消耗较大的问题。如果希望在保证较高组装完整度的同时降低错误组装数,MEGAHIT 是一个理想的选择。它具有组装速度快、内存占用低等优点,特别适用于复杂度较低的宏基因组数据,并能获得较高的准确性。CAMI(Critical Assessment of Metagenome Interpretation)项目的结果显示,MEGAHIT、Minia 以及 Meraga(Meraculous + MEGAHIT)在累计 contig 长度和 contig 数量等指标上,均优于 OperaMS Scaffolder、Ray Meta 和 Velour 等软件。IDBA-UD 在面对测序深度极不均匀的数据时同样表现良好。

AMOS 和 MeGAMerge 是采用 OLC 方法的鸟枪法宏基因组组装软件,它们通过整合多个组装器的结果来提升整体组装质量。此外,GAM-NGS 也可以合并不同的组装结果,从而提高组装的连续性和准确性。与传统的全局比对方法不同,GAM-NGS 通过 reads 比对识别两个组装结果中代表同一基因组区域的片段,并将这些片段存储在加权图中。Canu 是专为处理 PacBio 或 Oxford Nanopore 等长reads测序平台生成的长reads数据而设计的组装工具。混合组装(hybrid assembly)方法则结合了二代测序数据的高准确性和三代测序数据的长reads优势,相比单独使用短reads或长reads组装,能够获得更高质量的 contig,能够更好地解析复杂的重复DNA片段。目前,常用的混合组装软件包括 MaSuRCA、hybridSPAdes 和 OPERA-MS 等。
宏基因组序列组装面临多种挑战,包括基因组内和基因组间的重复序列、物种丰度不均、测序覆盖度不均、高水平的菌株多样性、部分门类的低回收率以及测序错误等因素。此外,组装质量还受到群落复杂性、相近基因组的存在、测序深度和k-mer大小等参数的影响。因此,对宏基因组组装质量进行准确评估对于后续分析至关重要。组装质量的评价主要包括以下三个方面:(i)统计指标,如contig数目、平均contig长度和N50值;(ii)组装contig的准确性,包括错配数和错误组装数;(iii)contig的完整性,通常以能被映射回contig的reads比例来衡量。目前,已有多种软件可用于组装质量评估。QUAST 能通过参考基因组检测错误组装和结构变异,并能在没有参考的情况下评估contig长度和基因组覆盖情况。MetaQUAST 是专为宏基因组组装开发的QUAST改进版,增加了检测嵌合contig和未知物种成分等功能。此外,DeepMAsED 利用深度学习方法,无需参考基因组即可识别错误组装的contig。
宏基因组序列组装策略主要包括单样本组装和多样本联合组装(见表3)。联合组装能够获得更多、更高完整度的基因组,尤其有助于回收丰度较低物种的基因组,但同时也会导致更高的污染风险。为了提高reads组装成contig的比例以及组装结果的准确性,可以结合单样本组装和多样本联合组装的方法。然而,随着数据量的增加,联合组装对计算资源的需求也大幅提升,因此这种策略并不适用于样本量较大的大规模数据集。通过联合组装获得的基因组可以视为群体水平的基因组。如果联合组装中包含了不同类型样本的reads,最终组装出的contig质量可能会有所下降。

宏基因组binning是指将来自同一物种甚至同一菌株的序列归为同一个基因组bin。根据聚类的序列类型不同,binning可以分为read binning、contig binning和gene binning。近年来,contig binning已成为组装基因组bin的主要方法。通常,MAGs是通过对contig进行binning,基于核苷酸组成或reads丰度等信息进行分类得到的。常用的binning工具主要包括MetaBAT 2、Maxbin 2和CONCOCT(见表4)。其中,MetaBAT 2由于内存利用效率高,非常适合处理大规模样本数据集中构建MAGs。contig的长度对最终获得的bin数量和质量影响很大,因此大多数上述软件建议选用长度≥1000 bp的contig进行binning;而使用MetaBAT 2时,contig长度一般需≥1500 bp。Variational Autoencoders for Metagenomic Binning(VAMB)是近年新开发的一款宏基因组binning工具。VAMB通过结合丰度信息和k-mer分布,利用深度变分自编码器对序列进行编码和聚类。与MetaBAT 2相比,VAMB通常得到的bin数量较少,但在不同的最小contig长度阈值下,bin数量较为稳定且具有较好的鲁棒性。

目前,尚无统一的MAG质量评价标准,但“完整度”(completeness)和“污染度”(contamination)通常被认为是衡量MAG质量的两个核心指标。CheckM 是目前最常用的工具,能够利用系统发育相关的标记基因和基因组树,对细菌和古菌的基因组完整度和污染度进行评估。几乎所有通过鸟枪法宏基因组测序获得MAG的研究都会用CheckM进行质量评估。然而,CheckM 无法对真菌或其他微生物真核生物的基因组进行有效评估。相较之下,BUSCO 可以用于细菌、古菌、病毒以及真核生物的MAG质量评估,且适用于多种数据类型,包括基因组组装、基因集和MAGs等。
为了进一步优化MAG质量,DAS Tool、Binning_refiner 和 MetaWRAP 等软件可以整合多种binning结果,从而提升MAG的完整度并降低污染度。RefineM 则可通过检测并去除GC含量、覆盖度或四核苷酸特征异常,以及存在分类矛盾或16S rRNA基因不一致的contig,进一步优化bin。此外,还可以提取每个bin对应的reads,并使用metaSPAdes进行重新组装,以获得更高质量的基因组bin。
MAG质量还可结合其他指标进行综合评价,例如菌株异质性、质量分数(完整度减去5倍污染度)、MAG内contig数量、rRNA基因(23S、16S、5S)是否齐全,以及tRNA的数量等。Genomic Standards Consortium(GSC)提出的MIMAG标准建议,完整度大于50%且污染度小于10%的MAG可归为中等质量;而高质量MAG需满足完整度大于90%、污染度小于5%,同时具备23S、16S、5S rRNA基因以及至少18个tRNA。
中高质量的MAGs通常需要进行丰度定量、物种分类鉴定和基因组功能注释。如果样本数量不大,推荐使用MetaWRAP进行这些分析。正如前文所述,MetaWRAP是一套灵活且模块化的分析流程,涵盖了从宏基因组测序reads的预处理、MAGs的构建,到丰度定量和功能注释的各个步骤,但需要注意其对计算资源的要求较高。除了MetaWRAP之外,Anvi’o也是一款常用的组学数据分析与可视化平台,支持组装、比对、分型、binning、bin优化(配有交互界面)及结果汇总等多种功能。MAGpy则更侧重于MAGs的下游分析,可以实现与多个公共数据库的蛋白或基因组序列比对、质量评估、物种分类以及系统发育分析。另外,Salmon最初用于RNA-seq转录本丰度的定量计算,目前也常用于MAGs丰度的分析。在MetaWRAP流程中,定量模块正是基于Salmon计算的contig丰度,通过长度加权平均进一步得出每个样本中各MAG的丰度。
MAG的物种分类方法主要分为三类:(i)基于DNA的分类方法,如平均核苷酸相似性(ANI)和基因组序列比对;(ii)基于蛋白的分类方法,包括平均氨基酸相似性(AAI)和蛋白序列比对;(iii)基于标记基因的分类方法,依赖于物种特异性的核心基因集或通用标记基因(见表5)。MetaWRAP的分类模块采用的是DNA水平的分类方法,而BAT则通过蛋白质水平对MAGs进行分类。一些工具则整合了两种及以上分类策略,如GTDB-tk、MiGA、PhyloPhlAn 3.0和MAGpy等。其中,GTDB-tk在近年来被大量研究广泛使用。

Prokka是一款集成多种软件的基因组注释流程,可用于MAGs的基因组注释。该程序能够预测MAGs中的编码序列(CDS)、rRNA基因和tRNA基因。Prokka输出的文件包括编码基因的蛋白质和核酸FASTA文件、Genbank格式文件,以及包含序列和注释信息的GFF(v3)文件,这些结果文件都便于后续的下游分析使用。
通常,研究人员通常会将MAGs与各类公共微生物基因组数据库结合使用。目前,常见且常用于物种分类注释的数据库包括Genome Taxonomy Database(GTDB)、Integrated Microbial Genomes(IMG)、RefSeq和GenBank等。此外,还有一些针对特定环境或分离菌株的参考基因组数据库,如人类微生物组计划(HMP)、细菌与古菌基因组百科全书(GEBA)、地球微生物基因组(GEM)、瘤胃未培养基因组(RUGs)以及Hungate基因组目录等(见表6)。

需要注意的是,细菌物种的定义仍存在争议。物种的划分可以基于多个方面,如系统发育单系性、核糖体RNA基因、一致的基因组特征以及表型特征等。因此,即使在相同的分类级别下,不同类群之间的序列相似性也可能存在差异。这也导致仅凭固定的序列相似性阈值难以准确地将MAGs归类到物种水平。通常,回收得到的基因组可以按照99%和95%的ANI(平均核苷酸相似性)阈值分别聚类为菌株水平和物种组(SGBs)。不过,想要实现高准确度的物种分类,仍需以高质量的MAGs为基础。
通过宏基因组binning方法能够获得未培养及先前未被描述的微生物类群的基因组,这些新回收的基因组为微生物基因组数据库的扩展提供了重要资源。基于这些MAGs,可以开展更深入的功能分析、比较基因组分析以及病毒基因组的宿主预测等高级研究,从而获得更有价值的生物学见解。
微生物培养不仅是实验验证微生物功能的有效方法,还能补充和丰富宏基因组分析推测得到的物种和功能资源库。与此同时,通过分析MAGs的基因组信息,也可以为优化微生物的培养条件提供理论依据,从而提高细菌分离和培养的成功率。有研究发现,未培养的细菌通常具有较小的基因组和较慢的复制速率,同时由于缺失许多相对保守的代谢通路,这类细菌往往也缺乏已培养菌中常见的多种基因。在MAGs的功能注释中,常用的数据库包括KEGG、CAZy、eggNOGs、antiSMASH、CARD和VFDB等(见表7)。

同一物种内部通常存在丰富的菌株多样性,因此单一基因组的信息往往无法全面反映该物种的基因库和功能潜力。随着微生物基因组数量的大幅增加,比较基因组学成为研究物种内不同菌株之间亲缘关系和基因组变异的重要手段。比较基因组学分析不仅包括系统发育关系的推断、全基因组比较、SNP识别,还涉及泛基因组分析等内容。此外,多项研究还表明,水平基因转移是推动原核生物进化的重要力量。通过比较基因组学分析,不仅能够深入了解不同微生物物种间基因的来源,还能判断关键功能基因(如抗生素抗性基因和毒力基因)的存在或缺失情况。
病毒在全球生态系统中发挥着重要作用。它们被认为是地球上最丰富的微生物实体,其数量远超其原核生物宿主。然而,大多数病毒的微生物宿主尚未明确,尤其是那些尚未被培养的病毒。MAGs为研究病毒与宿主之间的相互作用提供了宝贵资源。目前已有多种方法可用于预测噬菌体与细菌之间的关系,包括CRISPR-spacer匹配、序列同源性比对和物种丰度谱关联等。利用这些方法,研究人员已经从MAGs中鉴定出成千上万条病毒与细菌之间的互作关系,为深入理解噬菌体与其宿主细菌的生态联系提供了大量信息。
MAGs在结合其他数据(如临床指标、疾病状态诊断、宿主表型以及其他组学数据,包括可培养组学和代谢组学)时,在人体、动物及其他环境中展现出广阔的应用前景。与传统的培养方法和16S rRNA测序方法相比,通过宏基因组组装获得的微生物基因组不仅能够同时检测多种细菌、古菌和病毒,还可以在菌株甚至基因组水平揭示微生物的功能。
微生物组在人体健康中发挥着重要作用,深入理解微生物群落及其特定菌株的功能将为生物技术和疾病治疗领域带来新的前景。特别是在MAGs提供的菌株水平分辨率下,有助于推动感染性疾病诊断、健康与疾病状态下的微生物组分析、抗生素抗性预测、毒力因子检测以及疾病生物标志物的发现。随着抗生素耐药性问题的加剧,噬菌体治疗重新受到关注,MAGs为发现宿主细菌-噬菌体关系并推动噬菌体治疗研究提供了宝贵信息。此外,微生物组还会影响药物的代谢和治疗效果。通过分析MAGs的基因组信息,可以预测微生物群落的潜在功能,如编码次级代谢产物合成相关酶,从而揭示微生物组与药物代谢之间的关系。
动物微生物组中蕴含着丰富的生物资源,包括编码各类酶、抗菌活性物质以及免疫调节分子的基因。野生动物通常表现出较强的免疫力和环境适应性,这与其独特的微生物组结构密切相关。研究还发现,野生动物肠道微生物组的组成与宿主的遗传、饮食、栖息环境、社会结构和寿命等多种因素密切相关。这些发现不仅加深了我们对宿主-微生物互作关系的理解,也为野生动物保护策略提供了科学依据。
家畜家禽(如猪、牛、羊、鸡等)与人类生产生活关系密切。有研究指出,不同饲料效率的动物,其肠道微生物群落的结构和功能存在显著差异。因此,提高饲料利用效率不仅有助于提升畜禽生产性能,还直接影响到肉类、蛋类和奶制品等农产品的产量。益生菌、益生元和合生元等饲料添加剂能够促进动物生长、提升饲料效率,并在一定程度上有助于预防和控制疾病。MAGs为筛选和挖掘潜在的动物饲料益生菌资源提供了丰富的数据基础。
MAGs同样广泛来源于各种自然环境,如空气、建筑材料、水体、土壤等。微生物群落及其代谢产物在这些环境中普遍存在,并对人类健康产生潜在影响。此外,环境中的细菌抗性基因(ARGs)可能转移至人体,导致耐药性增强和疾病传播风险增加。环境来源的MAGs为鉴定ARGs潜在宿主、评估环境对公共健康的潜在风险提供了重要资源。近期有研究构建了全球城市微生物生态系统及抗性基因目录,突显了自然环境MAGs在公共健康研究中的应用潜力。在农业领域,MAGs有助于探索根际和土壤微生物组对植物养分吸收、抗病抗逆及产量的影响,并助力新型微生物资源开发。微生物还是多种酶类、抗菌素、细菌素和天然产物的重要来源,广泛应用于食品、化工、医药等行业。因此,环境来源的MAGs不仅为公共健康、农业和工业等领域的微生物组研究提供了重要资源,也推动了相关应用的发展。
随着高通量测序技术的不断进步,MAGs的数量在近年来呈现爆发式增长。然而,目前尚缺乏统一的生物信息学分析流程和基因组组装质量标准,这导致不同研究中MAGs的质量差异较大。此外,与MAGs相关的关键信息(如样本特征、来源及对应的测序数据)在公共数据库中常常缺失,这不仅为公共数据集的整合和复用带来了挑战,也极大地限制了不同数据集间的对比分析和微生物组数据的深入挖掘。近期,Kasmanas等人(2020)建立了针对人类宏基因组的规范化元数据库,Liu等人(2020)也提出了可重复性微生物组数据分析的实用指南,建议研究者在发表时同步提交原始测序数据、详细样本表型信息及相关代码,为今后构建统一的宏基因组数据库和完善元数据标准提供了借鉴。
从宏基因组中获得MAGs的每个环节都需要不断优化算法,以提升组装效率、MAGs质量和物种分辨率。特别是在contig组装阶段,高度的菌株多样性、重复序列以及高丰度物种的影响,使得从测序reads中正确组装contig变得极具挑战。三代测序技术能够获得更长的contig和更完整的基因组,但其错误率较高。将长短reads结合进行混合组装,有助于获得高质量甚至接近完整的基因组,提高物种分类准确性和基因组功能注释的全面性。相比之下,单细胞基因组测序可以获得低丰度微生物的高质量基因组,并实现基因功能与特定菌株的关联,但在细胞分选、嵌合reads和覆盖度均一性等方面仍有技术难题。因此,宏基因组测序与单细胞基因组测序的结合,有望弥补各自的不足,进一步拓展我们对未培养微生物多样性和功能基因的认知。
目前,通过宏基因组binning获得的MAGs主要为细菌,古菌MAGs较少,病毒序列则很难被准确binning,且容易与细菌、古菌或真核生物序列混杂。因此,古菌、病毒和真菌的MAGs相对匮乏。这一局限主要受物种丰度差异影响,低丰度物种的组装难度更大。目前的大多数MAGs研究集中于细菌,使得研究者对不同环境中的细菌组成有了较为深入的了解,但细菌间的互作机制依然不够清楚。近年来,部分研究通过整合可培养组、宏基因组(或16S rRNA基因测序)、转录组和数学建模等手段,初步揭示了细菌间的相互作用。微生物间的互作关系对群落结构、功能潜力以及宿主健康和行为有着深远影响。真菌能够影响细菌的生长、营养利用和生态功能,噬菌体则通过与细菌的协同进化调节细菌多样性和宿主免疫。通过整合宏基因组、宏转录组、宏蛋白组、代谢组和病毒组等多组学数据,可以系统性地解析微生物群落的组成、功能以及微生物间的复杂互作。因此,结合多组学数据(如转录组、代谢组和可培养组)对于揭示微生物与宿主表型之间的因果关系具有重要意义。
此外,免组装的宏基因组分析方法能够通过将测序reads直接比对到参考基因集,快速获得基因及功能谱,并有助于发现那些难以通过组装获得的低丰度物种。但要识别未被注释的新微生物,还需要更全面、完备的基因组和基因集。因此,MAG和非冗余基因集对于免组装宏基因组数据分析来说,是不可或缺的重要资源。
宏基因组binning技术使研究人员能够从鸟枪法宏基因组测序数据中获得大量未培养微生物的基因组,极大地丰富了微生物群落的系统发育多样性。本文为宏基因组测序相关研究提供了工具和流程选择的参考,也为深入理解MAGs在微生物组领域的价值与应用前景构建了理论框架。当前,通过整合多种测序技术和不断优化生物信息学算法,有望进一步提升MAGs的基因组质量。尽管如此,MAGs已为微生物的分离培养及微生物组与宿主表型关系的研究提供了重要的基因组信息。因此,未来仍需结合培养方法,对与MAGs相关的微生物功能潜力进行更深入的验证和解析。
Zhou Y, Liu M, Yang J. Recovering metagenome-assembled genomes from shotgun metagenomic sequencing data: Methods, applications, challenges, and opportunities. Microbiol Res. 2022 Jul;260:127023. doi: 10.1016/j.micres.2022.127023. Epub 2022 Apr 8. PMID: 35430490.