前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PeerJ: 三种降噪算法DADA2, UNOISE3和Deblur的比较

PeerJ: 三种降噪算法DADA2, UNOISE3和Deblur的比较

作者头像
Listenlii-生物信息知识分享
发布2020-06-01 13:30:53
4.2K0
发布2020-06-01 13:30:53
举报
文章被收录于专栏:Listenlii的生物信息笔记

前言

统一一直是人类一直追求的一种思想,就像四大基本作用力一样,吸引着无数大神们终其一生寻求答案。我相信不久的将来一定会有一个更好的算法出现,综合现在所有算法的优点,实现物种划分的统一。

本文2018年发表在PeerJ,可当做不同算法特点的一个小比较。对其结论其实我不是很认同,因为我觉得不同的数据会导致不同的结果,我之前也拿自己数据测试过三种算法,得到的结果就和本研究完全不同。所以对此文的结论需要慎重看待,权当一个参考吧。

本研究比较了三种降噪算法DADA2, UNOISE3, Deblur及open-reference 97% OTU clustering算法,对于mock, 土壤及宿主群落的影响。

Mock群落结果表明虽然群落组成相似,即相对丰度相似,但是OTU(ASV)数量差异很大,极大影响了群落的alpha多样性。

环境样本结果表明样本内部的物种组成相似,且样本之间beta多样性(weighted UniFrac 和Bray–Curtis)差异也很小。DADA2得到的ASV多于UNOISE3和Deblur,表明其可能对稀有种检测更灵敏,但是也可能是假阳性。

open-reference 97% OTU clustering得到的OTUs多于三种降噪算法得到的ASVs。

三种降噪算法运行时间差异很大,UNOISE3速度是DADA2和Deblur的1,200和15倍。

DADA2, UNOISE3, Deblur都用默认参数。对于open-reference 97% OTU Greengenes 13_8 97% OTU作为参考数据库。得到的OTU去掉singleton。

其实看完方法,如果对这几种算法了解的读者可能已经能得到本文的所有结果:

UNOISE3默认去掉小于8的序列; DADA2默认去掉singletons; Deblur默认去掉所有样本中和小于10的序列,且去掉每个样本中的singletons。

所以——不管算法差异有多大,从保留的序列数上看大概率是DADA2或者open-reference 97% OTU最多,也因此DADA2最可能速度最慢。而如果不同算法准确度差不多,不同算法得到的优势种就差不多,不同算法得到的群落整体结构也就差不多。易知, 本文的结论是对的。但是这种保留的最小序列数不同的研究又有多大意义呢(作者是国外的找不到我,可以大胆质疑了0.0)。

结果

不同算法在四种mock community中的物种数。open-reference 97% OTU永远是最多的。虚线为理论值,表明所有算法在处理低多样性的群落时都不准确。

不同算法得到群落的相对丰度类似

左图,三种环境样本中物种数量。DADA2>UNOISE3>Deblur。

右图,不同方法之间的Speraman相关性。DADA2与UNOISE3及open-reference 97% OTU相关性较差。

A运行时间及B内存消耗

还有很多结果略过,感兴趣可点阅读原文继续查看~

一个好消息是作者把所有的分析代码全部上传到了Github,是非常好的资源:

https://github.com/nearinj/Denoiser-Comparison

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档