前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Microbiome:CAMISIM模拟宏基因组和微生物群落

Microbiome:CAMISIM模拟宏基因组和微生物群落

作者头像
Listenlii-生物信息知识分享
发布2020-11-11 15:57:08
1.4K0
发布2020-11-11 15:57:08
举报

Journal: Microbiome

Published: 2019

Link:

https://microbiomejournal.biomedcentral.com/track/pdf/10.1186/s40168-019-0633-6

微生物群落的宏基因组数据集是高度多样化的,这不仅是由于潜在生物系统的自然变异,也由于实验步骤、重复数量和测序技术的差异。因此,为了有效地评估宏基因组分析软件的性能,需要广泛的基准数据集。

此研究开发了CAMISIM微生物群落和宏基因组模拟器。该软件可以模拟不同的微生物丰度概况,多样本时间序列,和差异丰度研究,包括真实和模拟的菌株水平的多样性,并生成第二代和第三代测序数据。

在人体和小鼠肠道微生物群落的两组模拟多样本数据中,观察到与真实数据高度一致的功能。

作为进一步的应用,在CAMISIM生成的数千个小数据集上研究了不同的基因组散度、测序深度和读取错误对两种流行的宏基因组序列拼接软件MEGAHIT和metaSPAdes的影响。

CAMISIM允许定制生成群落和数据集的许多属性,如基因组的总体数量、菌种多样性、基因组丰度分布、样本大小、重复数量和使用的测序技术。

CAMISIM分为三个阶段:

1 群落设计,包括选择群落成员及其基因组,并分配他们的相对丰度;基因组的选择基于截断的几何分布(truncated geometric distribution),丰度基于对数正态分布(lognormal distribution)。

2 元基因组测序数据模拟;

3 后处理,包括如何binning和组装。

CAMISIM流程

宏基因组数据模拟器汇总

Github:

https://github.com/CAMI-challenge/CAMISIM

看了一下使用方法:

CAMISIM可以采用两种方法进行模拟:

1是根据分类学文件,从NCBI上完整基因组中进行查找和模拟;结果尽可能和输入文件相接近。

2是de novo模拟。用户自己定义一些基因组用于群落的模拟。结果会最大化基因组的新颖性以及系统发育的扩散。de novo方法包括四种类型的群落:

a单个模拟的宏基因组样本:对数正态分布中抽取分类学信息;

b时间序列的宏基因组样本:对数正态分布+高斯噪声中抽取分类学信息,添加正态分布不断的得到样本;

c一系列重复模拟的宏基因组样本:对数正态分布中抽取分类学信息,并在对数正态分布中重复添加高斯噪声;

d不同丰度的宏基因组样本:对数正态分布中抽取分类学信息。

输出文件包括fastq格式的序列;

以及这些序列对应基因组的mapping文件;

序列组装,binning和profiling的金标准(gold standards)。

CAMISIM三个阶段看下来每一步都有一些坑。一个比较明显的局限性是模型是固定的(对数正态)。物种的分布到底是不是对数正态也一直是生态学上争论不休的一个重大而又基本的问题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
访问管理
访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档