PeerJ: 三种降噪算法DADA2, UNOISE3和Deblur的比较

Listenlii-生物信息知识分享

发布于 2020-06-01 13:30:53

4.9K0

文章被收录于专栏：Listenlii的生物信息笔记Listenlii的生物信息笔记

前言

统一一直是人类一直追求的一种思想，就像四大基本作用力一样，吸引着无数大神们终其一生寻求答案。我相信不久的将来一定会有一个更好的算法出现，综合现在所有算法的优点，实现物种划分的统一。

本文2018年发表在PeerJ，可当做不同算法特点的一个小比较。对其结论其实我不是很认同，因为我觉得不同的数据会导致不同的结果，我之前也拿自己数据测试过三种算法，得到的结果就和本研究完全不同。所以对此文的结论需要慎重看待，权当一个参考吧。

本研究比较了三种降噪算法DADA2, UNOISE3, Deblur及open-reference 97% OTU clustering算法，对于mock, 土壤及宿主群落的影响。

Mock群落结果表明虽然群落组成相似，即相对丰度相似，但是OTU(ASV)数量差异很大，极大影响了群落的alpha多样性。

环境样本结果表明样本内部的物种组成相似，且样本之间beta多样性（weighted UniFrac 和Bray–Curtis）差异也很小。DADA2得到的ASV多于UNOISE3和Deblur，表明其可能对稀有种检测更灵敏，但是也可能是假阳性。

open-reference 97% OTU clustering得到的OTUs多于三种降噪算法得到的ASVs。

三种降噪算法运行时间差异很大，UNOISE3速度是DADA2和Deblur的1,200和15倍。

DADA2, UNOISE3, Deblur都用默认参数。对于open-reference 97% OTU Greengenes 13_8 97% OTU作为参考数据库。得到的OTU去掉singleton。

其实看完方法，如果对这几种算法了解的读者可能已经能得到本文的所有结果：

UNOISE3默认去掉小于8的序列; DADA2默认去掉singletons; Deblur默认去掉所有样本中和小于10的序列，且去掉每个样本中的singletons。

所以——不管算法差异有多大，从保留的序列数上看大概率是DADA2或者open-reference 97% OTU最多，也因此DADA2最可能速度最慢。而如果不同算法准确度差不多，不同算法得到的优势种就差不多，不同算法得到的群落整体结构也就差不多。易知, 本文的结论是对的。但是这种保留的最小序列数不同的研究又有多大意义呢(作者是国外的找不到我，可以大胆质疑了0.0)。

结果