首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >MetaGEAR流程:宏基因组探索与研究

MetaGEAR流程:宏基因组探索与研究

作者头像
用户1075469
发布2026-03-25 12:29:32
发布2026-03-25 12:29:32
140
举报

为什么越来越多宏基因组研究,开始绕不开 MSP?

MetaGEAR是一个基于Nextflow/NF-Core的宏基因组分析流程,能够简化从原始读取到功能性注释的微生物组宏基因组工作流程。几个流程的比较之前有分享过一张大佬总结的图片,当时不少同学反馈Nextflow虽然学习门槛高,但是相比snakemake等是真给力的(原话是“完爆”,不是一个体量的),因为水平有限,还没入门nextflow,所以没这个体会,不过对大家的高评价,我是深信不已的。今天就来看看这个流程,第一次知道这个流程是在这篇文献,研究的是微生物胶原酶活性。

流程详情

流程包含质量控制、分类学分析、功能注释和基因中心分析工作流程处理宏基因组测序数据。每个工作流程都针对特定的分析目标设计,可以独立使用或组合使用,核心依赖 Java 17+、Nextflow 本身以及容器环境(如 Docker 或 Singularity)。前面的流程我们相对比较熟悉,基于reads有有参宏基因组分析,Kneaddata质控, MetaPhlAn物种分类, HUMAnN功能注释。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述发现相比其他流程,其特色是有基因分析(gene_analysis)——基于基因的分析工作流程,包括基因预测、功能注释、全基因组重建和分类,输出基因和蛋白质profile。应用的主要软件是megahit组装,prodigal基因预测,cdhit构建非冗余基因集,coverm基因丰度定量,interproscan功能注释(结构域),分析宏基因组物种泛基因组MSP (Metagenomic Species Pan-genome) 和MSP的gtdbtk物种注释。

流程使用

nextflow/nf-core的安装这里相信不需要多说,官网都有的,支持conda/docker等各种版本,记得官方优先推荐docker等容器的方式的。这里以基因分析为例: 需要准备一个samplesheet.csv:

代码语言:javascript
复制
sample,fastq_1,fastq_2
SAMPLE1,sample1_R1.fastq.gz,sample1_R2.fastq.gz
SAMPLE2,sample2_R1.fastq.gz,sample2_R2.fastq.gz

然后运行流程的命令就可以啦!

代码语言:javascript
复制
# 1. Download databases (run once)
metagear download_databases

# 2. Quality control
metagear qc_dna --input raw_samples.csv

# 3. Optional: Run microbial profiling first
metagear microbial_profiles --input qc_samples.csv

# 4. Gene-centric analysis
metagear gene_analysis --input qc_samples.csv

可以使用预览模式先测试下流程运行的步骤,如:metagear qc_dna --input samples.csv -preview

输出结果

流程运行完成后会生成以下目录结构的综合基因分析结果:

代码语言:javascript
复制
outdir/
├── megahit/                     # Assembly results (per sample)
│   ├── {sample}.contigs.fa      # Assembled contigs
│   ├── {sample}.log             # Assembly log files
│   └── {sample}.k{kmer}.fastg.gz # Assembly graph files
├── prodigal/                    # Gene prediction results
│   ├── {sample}.fna.gz          # Predicted nucleotide sequences
│   ├── {sample}.faa.gz          # Predicted protein sequences
│   ├── {sample}.gff.gz          # Gene annotation in GFF format
│   └── {sample}_all.txt.gz      # Complete gene annotations
├── cdhit/                       # Gene catalog construction
│   ├── merged_genes.nr_95_90.fa # Non-redundant gene catalog (95% similarity)
│   ├── merged_genes.nr_95_90.fa.clstr # Clustering information
│   └── protein_catalog.prot.faa # Protein catalog
├── coverm/                   # Gene abundance quantification
│   ├── gene_abundance_count_merged.tsv    # Raw read counts per gene
│   ├── gene_abundance_rpkm_merged.tsv     # RPKM normalized abundances
│   ├── gene_abundance_tpm_merged.tsv      # TPM normalized abundances
│   └── bwa_index/                         # BWA alignment indices
├── interproscan/                # Functional annotation results
│   ├── protein_catalog.annotations.tsv    # InterProScan annotations
│   └── protein_catalog.FG_IPS_Pfam.tsv   # Functional group annotations
├── msp/                    # Metagenomic Species Pan-genome (MSP) analysis
│   ├── msp_abundance.median.RPKM.txt      # MSP abundance profiles
│   ├── all_msps.tsv                       # MSP definitions and gene content
│   ├── pangenome_sequences/               # MSP pangenome FASTA files
│   └── msp_metaphlan_LM.bestR2.txt       # MSP-MetaPhlAn taxonomic mapping
├── gtdbtk/                      # Taxonomic classification
│   ├── classify/                          # GTDB-Tk classification results
│   ├── identify/                          # Marker gene identification
│   └── align/                             # Multiple sequence alignments
├── multiqc/                     # Quality control and summary reports
│   ├── multiqc_report.html                # Consolidated analysis report
│   ├── multiqc_data/                      # Parsed statistics and data
│   └── multiqc_plots/                     # Static plot images
└── pipeline_info/               # Pipeline execution metadata
    ├── execution_report.html              # Nextflow execution report
    ├── execution_timeline.html            # Processing timeline
    └── execution_trace.txt                # Resource usage tracking
![](https://i-blog.csdnimg.cn/direct/9c97be6f455a42ee82ce249cedc169f8.png)

流程将宏基因组数据从“单基因层面”提升到“物种泛基因组层面”,能够更稳定、可重复地刻画真实微生物物种及其功能潜力。相比单基因丰度,MSP 基于协同变化基因簇重建物种单位,有效降低组装和注释偏差,为跨队列比较、物种功能推断及疾病关联分析提供更可靠的生物学解释框架。 伙伴们,对这个流程怎么看,给出你的看法吧!

参考

  • • Jin, S., Cenier, A., Wetzel, D. et al. Microbial collagenase activity is linked to oral–gut translocation in advanced chronic liver disease. Nat Microbiol 11, 211–227 (2026). https://doi.org/10.1038/s41564-025-02223-0
  • • https://github.com/schirmer-lab/metagear-pipeline
  • • https://schirmer-lab.github.io/metagear/
  • • MSPminer:基于丰度的微生物全基因组重构,基于宏基因组数据https://www.enterome.com/downloads/
  • • MSPminer论文:https://doi.org/10.1093/bioinformatics/bty830
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 流程详情
  • 流程使用
  • 输出结果
    • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档