研究人员利用人工智能(AI)发现了近6000种未知的病毒。这项工作是在3月15日由美国能源部(DOE)组织的一次会议上提出的,它展示了一种探索地球上巨大而未知的病毒多样性的新工具。
尽管病毒会影响从人类健康到垃圾的降解,但它们很难研究。科学家们不能在实验室里培育出大多数病毒,并且试图识别他们的基因序列的尝试常常受阻,因为他们的基因组很小,而且进化得很快。
近年来,研究人员通过对取自各种环境的样本进行DNA测序,来寻找未知的病毒。为了识别目前存在的微生物,研究人员寻找已知病毒和细菌的遗传特征——就像一个文字处理器的“查找”功能,在文档中高亮显示含有特定字母的单词。但是这种方法经常失败,因为病毒学家不能搜索他们不知道的东西。一种叫做机器学习的人工智能解决了这个问题,因为它能在海量信息中找到紧急模式。机器学习算法解析数据,从中学习,然后自主地对信息进行分类。
“以前,人们没有办法很好地研究病毒,”洛杉矶南加利福尼亚大学的计算生物学家杰·任说。“但现在我们有工具可以找到它们。”
在最近的一项研究中,位于加州核桃溪的美国能源部联合基因组研究所的计算生物学家西蒙·鲁通过训练计算机识别出了来自一个不同寻常的家庭的病毒的遗传序列。这些病毒生活在细菌中,并改变宿主的行为:例如,它们使引起霍乱的细菌,霍乱弧菌,毒性更强。但在加州旧金山召开的会议上,他提出了自己的研究成果。他估计,在他的研究开始之前,已经有不到100个物种被发现。
西蒙·鲁提出了一种机器学习算法,该算法有两组数据,一组包含已知的丝形病毒的805个基因组序列,另一组包含来自细菌和其他类型病毒的2000个序列,这样算法就能找到区分它们的方法。
接下来,西蒙·鲁为模型提供了大量的元数据集。这台电脑发现了超过10,000个病毒科的基因组,并将它们聚集成不同物种的群体。他说,这些群体之间的遗传差异如此之大,以至于丝形病毒可能是很多家庭。
在另一项研究中,巴西圣保罗大学的生物信息学专家在该市的动物园里使用机器学习在堆肥堆中发现病毒。他编写了算法来搜索病毒基因组的一些显著特征,比如给定长度的DNA链中基因的密度。
通过机器学习,研究人员可以识别出隐藏在病人体内的病毒。此外,由于人工智能有能力在海量数据中找到模式,这种方法可以将病毒的数据与细菌联系起来,然后将其与有症状的人的蛋白质变化联系起来,机器学习可以揭示我们根本没想过的知识。
领取专属 10元无门槛券
私享最新 技术干货