首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Biotechnol. | 机器学习驱动的可扩展层级病毒分类体系

Nat. Biotechnol. | 机器学习驱动的可扩展层级病毒分类体系

作者头像
DrugAI
发布2026-01-06 14:18:28
发布2026-01-06 14:18:28
1040
举报
文章被收录于专栏:DrugAIDrugAI

DRUGONE

随着病毒生态基因组学的快速发展,大规模测序不断揭示前所未见的病毒序列空间,但现有分类工具在分类分辨率、可扩展性以及对未知病毒的系统化处理方面存在明显不足。研究人员提出 vConTACT3,一种基于机器学习与基因共享网络的病毒分类工具,通过自适应、分领域的距离阈值优化,在多个病毒界(realm)中实现从属到目的层级化分类。在数万条已注释病毒基因组上的评估显示,vConTACT3 与官方分类体系高度一致,同时还能快速、自动地为大量未分类病毒建立系统化的层级分类,为构建基于基因组的通用病毒分类体系迈出关键一步。

病毒广泛存在于海洋、土壤及宿主相关生态系统中,是重要的生态与进化驱动力。然而,病毒基因组在结构、进化速率和生活史上的高度多样性,使得统一、可比较的分类体系极具挑战性。尽管官方病毒分类体系已扩展至多个层级,但绝大多数已测序病毒仍缺乏完整的层级注释,且现有工具多依赖参考序列,难以应对快速增长的未知病毒序列空间。因此,亟需一种既能对已知病毒保持高一致性、又能对未知病毒系统性建类的可扩展方法。

方法

vConTACT3 基于病毒间的基因共享网络,将基因组表示为节点、共享基因为边,并在此基础上引入机器学习驱动的分层聚类框架。研究人员通过大规模参数搜索,针对不同病毒界和宿主类型,自动学习最优的相似性阈值,从而在同一框架下实现多层级分类。该方法既能利用已有参考分类进行校准,又能在缺乏参考的情况下创建新的分类单元,适用于超大规模病毒数据集。

结果

扩展病毒分类的层级与覆盖范围

vConTACT3 成功将分类从传统的单一属级,扩展至属、亚科、科和目等多个层级,并覆盖多种原核与真核病毒界,显著提升了分类体系的完整性。

图1| vConTACT3 框架与网络化病毒分类。

与官方分类体系的高度一致性

在数万条已注释病毒基因组上的基准测试显示,vConTACT3 在多数病毒界中与官方分类结果的一致性超过 95%,整体性能优于前一代工具及其他可扩展方法。

图2| 大规模参数优化与分类一致性评估。

未知病毒的系统化自动分类

vConTACT3 能够为此前缺乏分类信息的病毒序列自动创建新的分类单元,并在多个层级上给出合理归属,显著提升了病毒“暗物质”区域的可解释性。

图3| vConTACT3 与官方分类结果的对比示例。

对基因组片段与数据规模扩展的鲁棒性

即使在基因组不完整或数据规模持续扩大的情况下,vConTACT3 的分类结果仍保持高度稳定性,表明其适用于真实的大规模病毒发现研究。

图4| 基因组片段化与数据规模扩展对分类结果的影响。

讨论

研究结果表明,vConTACT3 在保持与现有分类体系高度一致的同时,实现了对未知病毒序列空间的系统化扩展。该方法为构建基于基因组、可扩展、层级一致的病毒分类体系提供了坚实工具支撑。尽管在更高层级或物种层级上仍需结合其他特征信息,但 vConTACT3 已为大规模病毒分类与未来分类体系修订奠定了基础。

整理 | DrugOne团队

参考资料

Bolduc, B., Zablocki, O., Turner, D. et al. Machine learning enables scalable and systematic hierarchical virus taxonomy. Nat Biotechnol (2025).

https://doi.org/10.1038/s41587-025-02946-9

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档