利用SINTAX进行序列鉴定。本文对此方法进行说明。
SINTAX于2016年发表于bioRxiv,作者是创造了Usearch的大神。所以看作者定价值,直接无条件的信任就好了~
SINTAX采用k-mer算法,来鉴定与参考数据库最佳匹配的序列,并采用bootstrap方法验证准确性。和基于朴素贝叶斯方法(Naive Bayesian Classifier)的RDP相比,SINTAX效果相当或更优,且不需要训练数据集。
目前已有的方法都有很高的过度分类错误率(over-classification errors),即新的分类单元被错误地预测为已知的菌属。
目前广泛使用的序列分类学鉴定工具有RDP,QIIME,mothur等。他们用的都是RDP的方法,但是所使用的的数据库不同。
RDP用自己的训练集做参考数据库,QIIME用Greengenes的子数据库GGQ为参考数据库,以97%为阈值进行聚类。mothur以SILVA的子数据库SILVAM作为参考数据库。
SINTAX算法就不写了,估计也没有人想看。直接说结果,作者拿SINTAX v1.0, RDP v2.12, QIIME v1.9.1, mothur v1.36.1进行了对比。
SINTAX 和RDP在V4水平表现相当,但是由于SINTAX过度分类错误率更低,其在全长16S和ITS上错误率更低,效果更优。ITS门水平上的灵敏度SINTAX (98.3%) 显著高于RDP (81.8%)。
在16S全长水平上,RDP的过度分类错误率可达40%。这表明40%的新物种可能都被错误的注释成了已有的物种。