前言
统一一直是人类一直追求的一种思想,就像四大基本作用力一样,吸引着无数大神们终其一生寻求答案。我相信不久的将来一定会有一个更好的算法出现,综合现在所有算法的优点,实现物种划分的统一。
本文2018年发表在PeerJ,可当做不同算法特点的一个小比较。对其结论其实我不是很认同,因为我觉得不同的数据会导致不同的结果,我之前也拿自己数据测试过三种算法,得到的结果就和本研究完全不同。所以对此文的结论需要慎重看待,权当一个参考吧。
本研究比较了三种降噪算法DADA2, UNOISE3, Deblur及open-reference 97% OTU clustering算法,对于mock, 土壤及宿主群落的影响。
Mock群落结果表明虽然群落组成相似,即相对丰度相似,但是OTU(ASV)数量差异很大,极大影响了群落的alpha多样性。
环境样本结果表明样本内部的物种组成相似,且样本之间beta多样性(weighted UniFrac 和Bray–Curtis)差异也很小。DADA2得到的ASV多于UNOISE3和Deblur,表明其可能对稀有种检测更灵敏,但是也可能是假阳性。
open-reference 97% OTU clustering得到的OTUs多于三种降噪算法得到的ASVs。
三种降噪算法运行时间差异很大,UNOISE3速度是DADA2和Deblur的1,200和15倍。
DADA2, UNOISE3, Deblur都用默认参数。对于open-reference 97% OTU Greengenes 13_8 97% OTU作为参考数据库。得到的OTU去掉singleton。
其实看完方法,如果对这几种算法了解的读者可能已经能得到本文的所有结果:
UNOISE3默认去掉小于8的序列; DADA2默认去掉singletons; Deblur默认去掉所有样本中和小于10的序列,且去掉每个样本中的singletons。
所以——不管算法差异有多大,从保留的序列数上看大概率是DADA2或者open-reference 97% OTU最多,也因此DADA2最可能速度最慢。而如果不同算法准确度差不多,不同算法得到的优势种就差不多,不同算法得到的群落整体结构也就差不多。易知, 本文的结论是对的。但是这种保留的最小序列数不同的研究又有多大意义呢(作者是国外的找不到我,可以大胆质疑了0.0)。
结果
不同算法在四种mock community中的物种数。open-reference 97% OTU永远是最多的。虚线为理论值,表明所有算法在处理低多样性的群落时都不准确。
不同算法得到群落的相对丰度类似
左图,三种环境样本中物种数量。DADA2>UNOISE3>Deblur。
右图,不同方法之间的Speraman相关性。DADA2与UNOISE3及open-reference 97% OTU相关性较差。
A运行时间及B内存消耗
还有很多结果略过,感兴趣可点阅读原文继续查看~
一个好消息是作者把所有的分析代码全部上传到了Github,是非常好的资源:
https://github.com/nearinj/Denoiser-Comparison