SINTAX: 优于RDP的序列分类器

Listenlii-生物信息知识分享

发布于 2020-05-29 11:57:06

1.8K0

利用SINTAX进行序列鉴定。本文对此方法进行说明。

SINTAX于2016年发表于bioRxiv，作者是创造了Usearch的大神。所以看作者定价值，直接无条件的信任就好了~

SINTAX采用k-mer算法，来鉴定与参考数据库最佳匹配的序列，并采用bootstrap方法验证准确性。和基于朴素贝叶斯方法(Naive Bayesian Classifier)的RDP相比，SINTAX效果相当或更优，且不需要训练数据集。

目前已有的方法都有很高的过度分类错误率(over-classification errors)，即新的分类单元被错误地预测为已知的菌属。

目前广泛使用的序列分类学鉴定工具有RDP，QIIME，mothur等。他们用的都是RDP的方法，但是所使用的的数据库不同。

RDP用自己的训练集做参考数据库，QIIME用Greengenes的子数据库GGQ为参考数据库，以97%为阈值进行聚类。mothur以SILVA的子数据库SILVAM作为参考数据库。

SINTAX算法就不写了，估计也没有人想看。直接说结果，作者拿SINTAX v1.0, RDP v2.12, QIIME v1.9.1, mothur v1.36.1进行了对比。

SINTAX 和RDP在V4水平表现相当，但是由于SINTAX过度分类错误率更低，其在全长16S和ITS上错误率更低，效果更优。ITS门水平上的灵敏度SINTAX (98.3%) 显著高于RDP (81.8%)。

在16S全长水平上，RDP的过度分类错误率可达40%。这表明40%的新物种可能都被错误的注释成了已有的物种。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-06-03，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度