
DRUGONE
随着病毒生态基因组学的快速发展,大规模测序不断揭示前所未见的病毒序列空间,但现有分类工具在分类分辨率、可扩展性以及对未知病毒的系统化处理方面存在明显不足。研究人员提出 vConTACT3,一种基于机器学习与基因共享网络的病毒分类工具,通过自适应、分领域的距离阈值优化,在多个病毒界(realm)中实现从属到目的层级化分类。在数万条已注释病毒基因组上的评估显示,vConTACT3 与官方分类体系高度一致,同时还能快速、自动地为大量未分类病毒建立系统化的层级分类,为构建基于基因组的通用病毒分类体系迈出关键一步。

病毒广泛存在于海洋、土壤及宿主相关生态系统中,是重要的生态与进化驱动力。然而,病毒基因组在结构、进化速率和生活史上的高度多样性,使得统一、可比较的分类体系极具挑战性。尽管官方病毒分类体系已扩展至多个层级,但绝大多数已测序病毒仍缺乏完整的层级注释,且现有工具多依赖参考序列,难以应对快速增长的未知病毒序列空间。因此,亟需一种既能对已知病毒保持高一致性、又能对未知病毒系统性建类的可扩展方法。
方法
vConTACT3 基于病毒间的基因共享网络,将基因组表示为节点、共享基因为边,并在此基础上引入机器学习驱动的分层聚类框架。研究人员通过大规模参数搜索,针对不同病毒界和宿主类型,自动学习最优的相似性阈值,从而在同一框架下实现多层级分类。该方法既能利用已有参考分类进行校准,又能在缺乏参考的情况下创建新的分类单元,适用于超大规模病毒数据集。
结果
扩展病毒分类的层级与覆盖范围
vConTACT3 成功将分类从传统的单一属级,扩展至属、亚科、科和目等多个层级,并覆盖多种原核与真核病毒界,显著提升了分类体系的完整性。

图1| vConTACT3 框架与网络化病毒分类。
与官方分类体系的高度一致性
在数万条已注释病毒基因组上的基准测试显示,vConTACT3 在多数病毒界中与官方分类结果的一致性超过 95%,整体性能优于前一代工具及其他可扩展方法。

图2| 大规模参数优化与分类一致性评估。
未知病毒的系统化自动分类
vConTACT3 能够为此前缺乏分类信息的病毒序列自动创建新的分类单元,并在多个层级上给出合理归属,显著提升了病毒“暗物质”区域的可解释性。

图3| vConTACT3 与官方分类结果的对比示例。
对基因组片段与数据规模扩展的鲁棒性
即使在基因组不完整或数据规模持续扩大的情况下,vConTACT3 的分类结果仍保持高度稳定性,表明其适用于真实的大规模病毒发现研究。

图4| 基因组片段化与数据规模扩展对分类结果的影响。
讨论
研究结果表明,vConTACT3 在保持与现有分类体系高度一致的同时,实现了对未知病毒序列空间的系统化扩展。该方法为构建基于基因组、可扩展、层级一致的病毒分类体系提供了坚实工具支撑。尽管在更高层级或物种层级上仍需结合其他特征信息,但 vConTACT3 已为大规模病毒分类与未来分类体系修订奠定了基础。
整理 | DrugOne团队
参考资料
Bolduc, B., Zablocki, O., Turner, D. et al. Machine learning enables scalable and systematic hierarchical virus taxonomy. Nat Biotechnol (2025).
https://doi.org/10.1038/s41587-025-02946-9
内容为【DrugOne】公众号原创|转载请注明来源