
上个月刚发表在NBT上的软件,看到有几个公众号和博客对这个软件进行了介绍,还是比较好奇这个软件的效果到底如何呀,在小伙伴的怂恿下测试一下下啦!
现有的许多宏基因组物种注释工具没有考虑未知的物种,昆士兰科技大学(QUT)生物医学科学学院微生物组研究中心,转化研究所开发的SingleM可以通过保守序列窗口策略解决此问题,但环境样本中仅8.0%的物种来自培养样本,表明基因组数据库仍需扩展。软件先对reads生成OTU,然后进行分类注释和丰度估算。下图是从原始宏基因组读取生成分类注释的OTU表的工作流程原理图。PS.也可以做16S 分析啦!


condense步骤的流程原理,减少噪音,让结果更加准确。


对标的是MetaPhlAn啦,不过作者也承认,MetaPhlAn在低丰度的物种预测上更准些,当然我们知道基于marker基因的弱点基本就是容易假阴性啦!号称速度上比kraken2慢了点,但是内存占用上比kraken2省了不只一点半点呀!在检测无参考基因组的新型微生物时表现最佳,其算法通过氨基酸空间比对提升敏感性,且资源消耗更低(仅需2GB内存)

可能咱一般人还是用conda的,但是软件也是支持源码/pypi/docker/Singularity/Apptainer的,我们知道由于镜像是文件形式的,后两者在超算上比较适用。软件比较特殊的一点是强调不需要质控,主要原因还是二代测序的读长相对短些。除了原始数据,也可以是组装好的基因组序列作为输入。
如果可能,请使用原始宏基因组reads,而不是高质量的质控后reads。使用 Trimmomatic 读取等进行高质量修剪可能会使它们太短而无法使用 SingleM,特别是如果它们被修剪为短于 100 bp。适配器修剪不太可能是有害的,但不是必需的。
参考数据库的下载,使用data子命令下载(或验证)SingleM 使用的参考数据,软件把参考数据库叫 SingleM数据包。 下载后,可以使用SINGLEM_METAPACKAGE_PATH环境变量来指定参考数据的位置。

# 安装
conda create -c conda-forge -c bioconda --override-channels --name singlem singlem'>='0.19.0
# 激活环境
conda activate singlem
# 参考下载, zendoo国内下载报错,只有手动下载啦,1.8G大小还好啦
singlem data --output-directory ./
tar zxvf S5.4.0.GTDB_r226.metapackage_20250331.smpkg.zb.tar.gz
# 解压后是个文件夹
export SINGLEM_METAPACKAGE_PATH='/data/S5.4.0.GTDB_r226.metapackage_20250331.smpkg.zb'
# 软件使用也是比较简单和一条命令啦
singlem pipe -1 <fastq_or_fasta1> -2 <fastq_or_fasta2> -p \
<output.profile.tsv>
# 看下参考数据库的文件结构
tree -d S5.4.0.GTDB_r226.metapackage_20250331.smpkg.zb|head
#S5.4.0.GTDB_r226.metapackage_20250331.smpkg.zb
└── payload_directory
├── S3.10.ribosomal_protein_S19_rpsS.spkg
│ └── S3.10.ribosomal_protein_S19_rpsS
│ └── S3.10.ribosomal_protein_S19_rpsS_final.gpkg.refpkg
├── S3.11.pheS.spkg
│ └── S3.11.pheS
│ └── S3.11.pheS_final.gpkg.refpkg
├── S3.12.ribosomal_L1.spkg
│ └── S3.12.ribosomal_L1
# 看下简单帮助
singlem pipe

随便下载了个人类的肠道菌群宏基因组数据,SAMEA111279291,运行测试下。
# 物种注释
singlem pipe --reads Ch01_1.fastq.gz -p output.profile.tsv
# 结果,感觉不怎么熟悉呀
sample coverage taxonomy
Ch01_1 3.01 Root; d__Archaea
Ch01_1 10.05 Root; d__Bacteria
Ch01_1 2.6 Root; d__Bacteria; p__Actinomycetota
Ch01_1 10.93 Root; d__Bacteria; p__Bacillota; c__Clostridia
Ch01_1 0.11 Root; d__Bacteria; p__Bacillota; c__Negativicutes
# 转换下
# krona圈图可视化
singlem summarise --input-taxonomic-profile output.profile.tsv \
--output-taxonomic-profile-krona doco_example.profile.html
# 表格可视化,相对丰度
singlem summarise --input-taxonomic-profile output.profile.tsv \
--output-species-by-site-relative-abundance doco_example.species_by_site.tsv
看起来样本是婴儿肠道之类的,有益菌占比很高,非常健康的肠道菌群呀!

图就是相对常规的结果啦,GTDB分类体系的!


从软件图标及相应的Sandpiper 的数据库的图标可以看出,作者是个十足的鸟类爱好者啦!感觉团队在整个软件家族的想法,我表示只知道第三个是琴鸟啦。相信生物科研工作者里面也有不少是鸟类爱好者,记得一次听讲座老师讲到最后就讲了自己的爱好是摄影,其中拍鸟是重要的组成部分啦,之前一个在DJI工作的无线电大佬现在也基本上好多精力投入到拍鸟啦。
