首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SingleM测试:基于reads和单拷贝标记基因氨基酸序列的物种分析

SingleM测试:基于reads和单拷贝标记基因氨基酸序列的物种分析

作者头像
用户1075469
发布2025-09-04 10:14:41
发布2025-09-04 10:14:41
1780
举报
文章被收录于专栏:科技记者科技记者

上个月刚发表在NBT上的软件,看到有几个公众号和博客对这个软件进行了介绍,还是比较好奇这个软件的效果到底如何呀,在小伙伴的怂恿下测试一下下啦!

软件介绍

现有的许多宏基因组物种注释工具没有考虑未知的物种,昆士兰科技大学(QUT)生物医学科学学院微生物组研究中心,转化研究所开发的SingleM可以通过保守序列窗口策略解决此问题,但环境样本中仅8.0%的物种来自培养样本,表明基因组数据库仍需扩展。软件先对reads生成OTU,然后进行分类注释和丰度估算。下图是从原始宏基因组读取生成分类注释的OTU表的工作流程原理图。PS.也可以做16S 分析啦!

condense步骤的流程原理,减少噪音,让结果更加准确。

在这里插入图片描述
在这里插入图片描述

对标的是MetaPhlAn啦,不过作者也承认,MetaPhlAn在低丰度的物种预测上更准些,当然我们知道基于marker基因的弱点基本就是容易假阴性啦!号称速度上比kraken2慢了点,但是内存占用上比kraken2省了不只一点半点呀!在检测无参考基因组的新型微生物时表现最佳,其算法通过氨基酸空间比对提升敏感性,且资源消耗更低(仅需2GB内存)

软件安装和使用

安装和准备

可能咱一般人还是用conda的,但是软件也是支持源码/pypi/docker/Singularity/Apptainer的,我们知道由于镜像是文件形式的,后两者在超算上比较适用。软件比较特殊的一点是强调不需要质控,主要原因还是二代测序的读长相对短些。除了原始数据,也可以是组装好的基因组序列作为输入。

如果可能,请使用原始宏基因组reads,而不是高质量的质控后reads。使用 Trimmomatic 读取等进行高质量修剪可能会使它们太短而无法使用 SingleM,特别是如果它们被修剪为短于 100 bp。适配器修剪不太可能是有害的,但不是必需的。

参考数据库的下载,使用data子命令下载(或验证)SingleM 使用的参考数据,软件把参考数据库叫 SingleM数据包。 下载后,可以使用SINGLEM_METAPACKAGE_PATH环境变量来指定参考数据的位置。

代码语言:javascript
复制
# 安装
conda create -c conda-forge -c bioconda --override-channels --name singlem singlem'>='0.19.0
# 激活环境
conda activate singlem
# 参考下载, zendoo国内下载报错,只有手动下载啦,1.8G大小还好啦
singlem data --output-directory ./
tar zxvf S5.4.0.GTDB_r226.metapackage_20250331.smpkg.zb.tar.gz 
# 解压后是个文件夹
export SINGLEM_METAPACKAGE_PATH='/data/S5.4.0.GTDB_r226.metapackage_20250331.smpkg.zb'
# 软件使用也是比较简单和一条命令啦
singlem pipe -1 <fastq_or_fasta1> -2 <fastq_or_fasta2> -p \
   <output.profile.tsv>
# 看下参考数据库的文件结构
tree -d S5.4.0.GTDB_r226.metapackage_20250331.smpkg.zb|head
#S5.4.0.GTDB_r226.metapackage_20250331.smpkg.zb
└── payload_directory
    ├── S3.10.ribosomal_protein_S19_rpsS.spkg
    │   └── S3.10.ribosomal_protein_S19_rpsS
    │       └── S3.10.ribosomal_protein_S19_rpsS_final.gpkg.refpkg
    ├── S3.11.pheS.spkg
    │   └── S3.11.pheS
    │       └── S3.11.pheS_final.gpkg.refpkg
    ├── S3.12.ribosomal_L1.spkg
    │   └── S3.12.ribosomal_L1
    # 看下简单帮助
    singlem pipe

使用

随便下载了个人类的肠道菌群宏基因组数据,SAMEA111279291,运行测试下。

代码语言:javascript
复制
# 物种注释
singlem pipe --reads Ch01_1.fastq.gz -p output.profile.tsv
# 结果,感觉不怎么熟悉呀
sample  coverage        taxonomy
Ch01_1  3.01    Root; d__Archaea
Ch01_1  10.05   Root; d__Bacteria
Ch01_1  2.6     Root; d__Bacteria; p__Actinomycetota
Ch01_1  10.93   Root; d__Bacteria; p__Bacillota; c__Clostridia
Ch01_1  0.11    Root; d__Bacteria; p__Bacillota; c__Negativicutes
# 转换下
# krona圈图可视化
singlem summarise --input-taxonomic-profile output.profile.tsv \
    --output-taxonomic-profile-krona doco_example.profile.html
# 表格可视化,相对丰度
 singlem summarise --input-taxonomic-profile output.profile.tsv \
    --output-species-by-site-relative-abundance doco_example.species_by_site.tsv 

看起来样本是婴儿肠道之类的,有益菌占比很高,非常健康的肠道菌群呀!

图就是相对常规的结果啦,GTDB分类体系的!

彩蛋

从软件图标及相应的Sandpiper 的数据库的图标可以看出,作者是个十足的鸟类爱好者啦!感觉团队在整个软件家族的想法,我表示只知道第三个是琴鸟啦。相信生物科研工作者里面也有不少是鸟类爱好者,记得一次听讲座老师讲到最后就讲了自己的爱好是摄影,其中拍鸟是重要的组成部分啦,之前一个在DJI工作的无线电大佬现在也基本上好多精力投入到拍鸟啦。

参考

  • gg138 16S 参考:https://github.com/wwood/singlem_extra_packages
  • Ch01_1.fastq.gz:https://www.ebi.ac.uk/ena/browser/view/ERP140641
  • 文档:https://wwood.github.io/singlem/
  • github: https://github.com/wwood/singlem
  • 数据库:https://sandpiper.qut.edu.au/
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 软件介绍
  • 软件安装和使用
    • 安装和准备
    • 使用
  • 彩蛋
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档