前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >LULU:对OTU进行过滤的算法,得到更准确的群落多样性

LULU:对OTU进行过滤的算法,得到更准确的群落多样性

作者头像
Listenlii-生物信息知识分享
发布2020-06-01 13:36:59
2.7K0
发布2020-06-01 13:36:59
举报

Link: https://www.nature.com/articles/s41467-017-01312-x

Journal: Nature communication

IF: 11.878

Published: 30 October 2017

First author: Tobias Guldberg Frøslev

Corresponding author: Tobias Guldberg Frøslev, Anders Johannes Hansen

Department: Department of Biology, University of Copenhagen, Universitetsparken 15, DK-2100 Copenhagen, Denmark. (哥本哈根大学)

目前引用39次

本研究开发了一种新算法:LULU,可用于移除高通量测序得到的错误的OTUs。

LULU通过序列相似性(sequence similarity)和共发生模式(co-occurrence patterns)对OTU进行判断。

利用丹麦不同环境梯度中的130个位点的维管植物与植物的ITS2数据验证了该方法的准确性。

先利用不同聚类算法得到OTU,在利用LULU进行筛选(curated with LULU)。结果表明LULU提升了α多样性与其他多样性,且不需要额外的参考数据库。

这是一种很有前途的可靠的生物多样性估计方法。

核心原理是在基于子代OTUs(‘daughter’ OTUs)是假OTU的假定条件下,鉴定并融合与高丰度父代OTUs始终共存、序列相似的子代OTUs。

The core mechanism is the identification and merging of ‘daughter’ OTUs with consistently co-occurring, sequence similar, but more abundant ‘parent’ OTUs across a multi-sample data set, under the assumption that the ‘daughter’ OTUs are artefacts.

该方法不需要参考数据库,可用于任何样本、算法产生的任何OTU表。

之前已经有了一种类似的方法,该方法基于分布进行聚类,可将16S细菌序列聚类为具有显著生态意义的OTU,并被整合到了dbotu3工具中。

Preheim, S. P., Perrotta, A. R., Martin-Platero, A. M., Gupta, A. &Alm, E. J. Distribution-based clustering: using ecology to refine the operational taxonomic unit. Appl. Environ. Microbiol. 79, 6593–6603 (2013).

Olesen, S. W., Duvallet, C. & Alm, E. J. dbOTU3: A new implementation of distribution-based OTU calling. PLoS ONE 12, e0176335 (2017)

但是这两种方法存在本质的不同。LULU是一种post-clustering curation method,旨在移除错误的OTU,得到有意义的多样性。而dbotu3是一种聚类算法,旨在鉴定具有显著生态意义的细菌种。两算法的总体处理策略是相似的。

方法

OTU表可以得到的一些东西:

1. OTU表中的OTU数量一般都多于实际的物种数;

2. OTU表通常包含很多低丰度的OTU,它们在分类上是冗余的,因为它们的分类学信息与高丰度OTU相同。这种情况可能是由于不完整的参考数据或聚类不足造成的,这可以表明OTU实际上是一种方法学人造物;

3.相同分类学信息的前提下,高丰度OTUs序列相似性要高于低丰度OTUs序列的相似性;

4. 低丰度的OTUs往往是共发生的。

基于以上四条,低丰度的OTU可能是人为带来的错误,或者种内稀有的变异。因此LULU的核心思想是利用OTUs序列之间成对相似性所体现的共现模式来进行筛选。

1. 建立OTU表

2. 建立用于匹配的列表。包含样本中和每个OTU相似的样本中其他OTU信息。这一步可用其他算法计算,如BLASTn 或 VSEARCH。这个列表包含三列,第一列是需要进行比较的OTU,第二列是与之比较的OTU,第三列为相似性阈值。

3. LULU进行筛选。先将OTU按照丰度从高到底排序,先挑选最高丰度的OTU作为potential daughter,考察其发生是否可以用丰度更高且相似的父代OTU的共发生来解释,如果可以,则这个子代OTU是错误,如果不可以,则这个子代OTU为真OTU。对每个OTU依次进行检验,最后将所有的子代OTU与对应的父代OTU合并。

几个可以调整的参数:

OTU之间相似度的最小阈值:默认84%。低于阈值会被认为是错误的OTU。

共发生率阈值:默认95%

子代OTU与父代OTU丰度的比值。

与LULU相比,dbout3使用未聚类的数据,使用另一种序列相似性矩阵(Levenshtein edit distance)进行序列比对。The asymptotic likelihood ratio test检验OTU之间是否具有相似的分布。另外dbout3使用python写的。

结果

四种算法生成OTU:

VSEARCH : Rognes, T., Flouri, T.,Nichols, B., Quince, C. & Mahé, F. VSEARCH: a versatile open source tool for metagenomics. Peer J. 4, e2584 (2016). SWARM : Mahé, F., Rognes, T., Quince, C., de Vargas, C. & Dunthorn,M. Swarm: robust and fast clustering method for amplicon-based studies. Peer J.3, e1420, https://doi.org/10.7717/peerj.1420 (2015). CROP: Hao, X., Jiang, R. & Chen, T. Clustering 16S rRNA for OTU prediction: a method of unsupervised Bayesian clustering. Bioinformatics 27,611–618 (2011)

DADA2: Callahan, B. J. et al. DADA2: high-resolution sample inference from Illumina amplicon data. Nat. Methods 13, 581–583 (2016).

LULU筛选过的OTU数量与实际植物数量相关关系显著提升

b.筛选过的OTU数量下降;

c.分类学冗余性减少;

d.beta多样性减少;

e.和数据库匹配的比例上升。

此外,将LULU与移除singletons的效果进行了比较。移除singletons增加了0.03的OTU与真实物种数相关性,而LULU增加了0.27。

LULU与dbout3进行了比较。LULU在贪婪聚类算法(SWARM和VSEARCH)得到的结果上明显优于dbout3。

LULU基于R, R包在github可下载:

https://github.com/tobiasgf/lulu

—END—

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档