2
每个物种提供4条参考序列时,可达85%的准确率。≥7条序列时模型稳定在~88%的准确率。
01
重要的背景1
广泛使用的真菌ITS参考数据库有UNITE和Warcup。...计算公式为fg=Dg(s, t)/(N - 1),其中s,t=A, T, G, C; g = 1,2, 3, 4, 5。
Dg(s, t)含义就是对于s和t这两个碱基,中间有g个gap的个数。...下图是一个简单的说明。以第一行为例,计算的就是A和A之间没有gap的个数。N=11,所以f0(A,A)=0.3。
对于任意长度为N的序列,每一个g-spaced feature有16种结果。...但是突然想到一个问题,如果这个工具真的这么好,超越RDP,且从结果和讨论中也没有发现重大的缺陷,为什么只发到了BMC Genetics(IF 2.4)上。我推测可能还是因为算法不被其他期刊所接受。...----
一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。