Published: 2021 Feb 24
Link: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8544895/
摘要
16S rRNA基因扩增子测序是目前微生物群落研究的首选方法。但是关于程序差异的比较研究很少。
对人类粪便样本和模拟群落进行了测序。
针对不同可变区域(V -region)范围(V1-V2、V1-V3、V3-V4、V4、V4- v5、V6-V8、V7-V9)进行研究,以了解由于引物选择不同导致的结果差异。
考察了聚类方法(操作分类单位[OTUs]、零半径OTUs [zOTUs]和扩增子序列变异[ASVs])、不同数据库(GreenGenes、the Ribosomal DatabaseProject、Silva、基于基因组的16S rRNA数据库和The All-Species Living Tree)的影响,并对分类学结果进行了研究。
虽然已知引物的选择对最终的微生物组成有显著影响,但我们表明,使用不同引物需要对性能进行独立验证。此外,由于命名法(例如Enterorhabdusvs 和 Adlercreutzia)的差异,以及从属水平精度差异,使用不同的数据库比较数据集可能会产生误导。
总的来说,特定但重要的类群没有被特定的引物配对所捕获(如Bacteroidetes被515F-944R遗漏)或由于所使用的数据库的不完整而丢失(如在GreenGenes和基于基因组的16S rRNA数据库中的Acetatifactor)。我们发现适当的序列截断是必要的,不同的截断长度组合应该对每个研究进行测试。最后,强烈推荐具有足够数量和足够复杂性的特定模拟群落进行实验。
方法:
采集人类粪便样本,并设计了三种模拟群落,每种十几种菌,进行扩增。
数据分析和可视化分别采用nfcore/ampliseq和Rhea流程。
Ewels PA, Peltzer A, Fillinger S, Patel H,Alneberg J, Wilm A, Garcia MU, Di Tommaso P, Nahnsen S. 2020. The nf-core framework forcommunity-curated bioinformatics pipelines. Nat Biotechnol 38:276–278.doi:10.1038/s41587-020-0439-x.
Rhea: a transparent and modular R pipeline for microbial profiling based on 16S rRNA gene amplicons. PeerJ 5:e2836.doi:10.7717/peerj.2836.
图1本研究中使用的分析策略。从3个模拟群落和33个人类粪便样本中提取了不同类型的DNA。利用不同的引物对针对不同的V区生成扩增子,并在Illumina MiSeq上进行测序。然后,研究了不同聚类方法和参考数据库对微生物群落的影响。
结果
1. 使用不同引物对扩增相同样本导致了引物特异性的聚类,而不是样本特异性的聚类(图2)。这些差异根据所分析的分类水平有所不同。在较高的分类水平上(门)差异不那么明显。当分析来自同一人类供体但使用不同的引物对测序的样本时,某些分类单元对于某些引物对是特异性的。
图2人体样本微生物组组成的NMDS图。门水平(A和B)和属水平(C和D)。
2.与引物选择的影响相比,聚类方法(OTU,zOTU,ASV)对分类组成只有很小的影响。ASV效果最好。
图4A 聚类方法对模拟群落分类的影响
3. 物种分类收到数据库选择的影响。
图5A 数据库对模拟群落分类的影响
4. 具体的平台设置对分类影响较小。
图6 序列截断不同长度后对结果的影响
5. 建议
图7 在开始新的微生物组研究前推荐的验证策略,特别是在不常见的环境中进行的研究。现有的常用参数组合也可能需要被重新评估。因此,应该使用复杂的模拟群落并对其进行测序,测试各种不同的引物对,以在感兴趣的环境中获得最佳性能。尽管它们的影响不大,但我们仍然建议使用包含去噪步骤的聚类方法(例如,DADA2生成ASV),并推荐最新的数据库RDP和Silva作为参考。
评论:
对于工具和方法的测评文章经久不衰,这也反映了大家对当前工具和方法心里没底,结果的准确度上仍存在较大的不确定性。
本文刚看的时候我就质疑模拟群落太简单了,而且和环境样本的关系也不清楚。最后作者也强调了需要利用研究的环境样本中有代表性的菌株构建复杂的模拟群落,验证工具和方法的选择。这一套预试验下来会大大增加研究的时间和各种成本。虽然可以使结果更加准确,但其实很难推广。
在我看来一个方法是根据现有知识,建立各个环境中常见物种的数据库,并基于此建立世界范围内统一的、标准化的模拟群落,甚至可以依托公司做成产品。在研究的时候先用标准化的模拟群落进行验证,之后再跑自己的真实数据。