Journal: Microbiome
Published: 2019
Link:
https://microbiomejournal.biomedcentral.com/track/pdf/10.1186/s40168-019-0633-6
微生物群落的宏基因组数据集是高度多样化的,这不仅是由于潜在生物系统的自然变异,也由于实验步骤、重复数量和测序技术的差异。因此,为了有效地评估宏基因组分析软件的性能,需要广泛的基准数据集。
此研究开发了CAMISIM微生物群落和宏基因组模拟器。该软件可以模拟不同的微生物丰度概况,多样本时间序列,和差异丰度研究,包括真实和模拟的菌株水平的多样性,并生成第二代和第三代测序数据。
在人体和小鼠肠道微生物群落的两组模拟多样本数据中,观察到与真实数据高度一致的功能。
作为进一步的应用,在CAMISIM生成的数千个小数据集上研究了不同的基因组散度、测序深度和读取错误对两种流行的宏基因组序列拼接软件MEGAHIT和metaSPAdes的影响。
CAMISIM允许定制生成群落和数据集的许多属性,如基因组的总体数量、菌种多样性、基因组丰度分布、样本大小、重复数量和使用的测序技术。
CAMISIM分为三个阶段:
1 群落设计,包括选择群落成员及其基因组,并分配他们的相对丰度;基因组的选择基于截断的几何分布(truncated geometric distribution),丰度基于对数正态分布(lognormal distribution)。
2 元基因组测序数据模拟;
3 后处理,包括如何binning和组装。
CAMISIM流程
宏基因组数据模拟器汇总
Github:
https://github.com/CAMI-challenge/CAMISIM
看了一下使用方法:
CAMISIM可以采用两种方法进行模拟:
1是根据分类学文件,从NCBI上完整基因组中进行查找和模拟;结果尽可能和输入文件相接近。
2是de novo模拟。用户自己定义一些基因组用于群落的模拟。结果会最大化基因组的新颖性以及系统发育的扩散。de novo方法包括四种类型的群落:
a单个模拟的宏基因组样本:对数正态分布中抽取分类学信息;
b时间序列的宏基因组样本:对数正态分布+高斯噪声中抽取分类学信息,添加正态分布不断的得到样本;
c一系列重复模拟的宏基因组样本:对数正态分布中抽取分类学信息,并在对数正态分布中重复添加高斯噪声;
d不同丰度的宏基因组样本:对数正态分布中抽取分类学信息。
输出文件包括fastq格式的序列;
以及这些序列对应基因组的mapping文件;
序列组装,binning和profiling的金标准(gold standards)。
CAMISIM三个阶段看下来每一步都有一些坑。一个比较明显的局限性是模型是固定的(对数正态)。物种的分布到底是不是对数正态也一直是生态学上争论不休的一个重大而又基本的问题。