人工智能(AI)可以加速宏基因组研究来寻找科学界所未知的物种。3月8日,中国疾控中心张永振教授在《Cell》上介绍了宏基因组学在大规模发现与研究新病毒方面的作用,参见
张永振教授在《Cell》发表重要评述文章:利用宏观基因组学挖掘未知病毒
。以下是3月19日刊登在Nature杂志上的一篇新闻。
研究人员已经使用人工智能发现了将近6000种先前未知的病毒。这项工作在美国能源部组织的3月15日的一个会议上进行了报告,描述了一个探索地球上病毒的巨大的且未知的多样性的一个新兴工具。
尽管病毒影响从人类健康到垃圾降解的各个方面,但它们很难被研究。科学家不能在实验室培养大多数病毒,且鉴定它们遗传序列通常很难完成,因为它们的基因组小且进化迅速。
在最近几年,研究者通过从不同环境获得的样本进行DNA测序来搜寻未知病毒。为了鉴定目前的微生物,研究者寻找已知病毒和细菌的基因特征——就像一个文字处理器的“搜索”功能,标记出在一个文件中包含特殊字母的单词。但是,这个方法经常失败,因为病毒学家不能寻找他们不知道的东西。人工智能的一种形式称为“机器学习”,解决了这个问题,因为它能在如山的信息中发现蛛丝马迹。机器学习算法解析数据,从中学习,然后自主地将信息进行分类。
“以前,人们没有研究病毒很好的方法,”Jie Ren说道,一个南加利福尼亚大学洛杉矶分校工作的计算生物学家,“但是现在我们有发现它们的工具。”
对于最近的研究,来自加利福尼亚的美国能源部联合基因组研究所(JGI)的计算生物学家Simon Roux训练计算机来鉴定来源于一个独特的病毒科Inoviridae(丝状噬菌体科)的病毒基因序列。这些病毒生存于细菌,且改变了它们宿主的行为:例如,它们使引起霍乱的霍乱弧菌更具有毒性。但是在联合基因研究所组织的加利福尼亚州旧金山召开的会议上Roux汇报了他的工作,估计在他的研究开始之前只有少于100种病毒已经被鉴定。
Roux 介绍了一个基于两组数据的机器学习算法——一组数据包含从丝状噬菌体科得到的805个基因组的序列,另一组数据包含从细菌和其它类型病毒得到的约2000个序列。这个算法可以找到区分它们的方法。
接下来,Roux 为模型提供了大量的宏基因组数据集。这个计算机恢复了超过10,000个丝状噬菌体科的基因组,且将它们聚集成代表不同种的组。这些组之间的基因变异是如此广泛,意味着丝状噬菌体科可能拥有很多属种。
病毒学习
在另一项独立研究中,巴西圣保罗大学工作的生物信息学家Deyvid Amgarten利用机器学习来在城市动物园里的堆肥中寻找病毒。他编程算法以寻找一些病毒基因组的特征,例如一段给定长度的DNA链上的基因密度。在学习之后,计算机恢复了几个看上去新的基因组,Amgarten说,他在联合基因组研究所会议上也报告了他的结果。最后一步将是学习那些病毒制造什么蛋白质,且观察它们是否可以加快有机物降解的速度。“我们想要改进堆肥的效率,”他说。
Amgarten从去年报道的来源于Ren的研究组的一个名为VirFinder的机器学习工具中得到灵感。VirFinder分析DNA的碱基组合,例如在DNA链上的AT或CG 。Ren将这个算法应用到从健康人和肝硬化(由肝炎和慢性酒精中毒等疾病引起的)病人的粪便得到的宏基因组样本中。在机器将样本中的病毒完成分组后,研究组发现,与有肝硬化的病人相比,特定的病毒类型在健康人上或多或少是共同的,这表明一些病毒可能在疾病中起作用。
Ren的发现是诱人的:生物化学的研究者很长时间想知道病毒是否促进了一些疾病发生,例如慢性疲劳综合症(又称肌痛性脑脊髓炎)和炎症性肠病。在康涅狄格州法明顿基因组医学杰克逊实验室工作的免疫学者Derya Unutmaz推测,病毒可能引发一个破坏性的炎症反应,或者它们可能修改一个人微生物组中的细菌行为,这反过来可以影响人的新陈代谢和免疫系统。
Unutmaz认为,利用机器学习,研究者可以鉴定在病人身上仍然隐藏的病毒。进一步,因为人工智能有能力在大量的数据集找到模式,这个方法可以将病毒上的数据和细菌联系起来,然后和病人身上的蛋白质改变联系起来。“机器学习可以揭示我们不曾思考过的知识。”Unutmaz说。
论文作者
第一作者:
Jie Ren, 南加利佛尼亚大学,分子与计算生物学
通讯作者:
Fengzhu Sun,复旦大学,计算系统生物学中心;南加利福尼亚大学,分子与计算生物学
Nathan A. Ahlgren,南加利福尼亚大学,生物科学系
领取专属 10元无门槛券
私享最新 技术干货