首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

科学家利用人工智慧发现近6000 种未知病毒

许多病毒无法在实验室里培养,很难进行深入的研究

科学家利用人工智慧发现近6000 种未知病毒。近日,在美国能源部(Department of Energy)举办的会议中,研究员展示了一种新的机器学习工具,可探索地球上无数未知的病毒。

利用机器学习发现新病毒

虽然病毒影响着我们的日常生活,例如我们的健康,或垃圾的分解,不过由于科学家无法在实验室中培养大多数的病毒,而且病毒的基因体很小、进化快速,所以科学家一直以来都难以识别病毒的基因序列。

近年来,研究人员尝试从不同环境的样本进行DNA 定序,希望能寻找出未知的病毒。为了识别存在的微生物,研究人员搜寻已知病毒和细菌的基因特征,就像文书处理软体的「寻找」功能,找出文件中的特定文字一样。不过因为病毒学家无法寻找未知的东西,所以这种方法往往失败。

不过,机器学习能解决这个问题,这种方法能在大量的讯息中找出有意义的规律。机器学习演算法能分析资料,从中学习,然后自主分类资讯。

南加州大学(University of Southern California)的计算生物学家任杰博士(Jie Ren)表示:「以往,人们没有研究病毒的好方法,但现在我们终于有一个工具可以寻找它们。」

训练丝状噬菌体科病毒家族

最新的研究中,美国能源部联合基因体研究所(Joint Genome Institute,简称JGI)的计算生物学家鲁林博士(Simon Roux),训练电脑从一个不常见的丝状噬菌体科(Inoviridae)病毒家族,去识别病毒的基因序列。这些病毒生活在细菌中,并改变宿主的行为,例如,它们会让霍乱弧菌的毒性更强。在鲁林博士开始研究前,估计只发现了不到100 个品种。

鲁林博士提出了一种机器学习演算法,这种演算法包含两个资料集。一个资料集含有805 个丝状噬菌体科基因序列,另一个则含有大约2000 个来自细菌和其他病毒的基因序列,让演算法能发现区别的方法。

接着,鲁林博士把庞大的总体基因体资料集提供给模型。电脑找到了超过10000 个丝状噬菌体科基因体,并将其聚集成不同物种的集群。鲁林博士表示,其中一些集群之间的遗传变异非常大,所以丝状噬菌体科可能是很多家族组成的。

发现提升堆肥处理效率的新病毒

在另一项研究中,巴西圣保罗大学(University of São Paulo)的生物资讯学家戴维·阿姆加藤博士( Deyvid Amgarten),利用机器学习在城市动物园寻找堆肥中的病毒。他撰写演算法来搜寻病毒基因体的一些显著特征,例如特定长度的DNA 链上的基因密度。

阿姆加藤博士表示,经过训练后,电脑找到了几个似乎是新的基因体。最后一步是了解这些病毒产生的蛋白质,看看其中一些蛋白质能否加快有机物质的分解速度,并希望能提升堆肥处理的效率。

发现病患身上的新病毒

阿姆加藤博士从任杰团队开发的机器学习工具VirFinder 得到线索。VirFinder 可寻找DNA 链上的碱基配对,例如AT 或CG。任杰博士将这种演算法应用在健康者和肝硬化患者粪便的总体基因体样本上。电脑对样本中的病毒进行分类之后,研究团队注意到,与肝硬化患者相比,正常人的某些特定类型基因体更多或更少,这表示某些病毒可能导致这种疾病。

任杰博士的研究相当引人注目。长久以来,医学生物研究人员一直希望了解,病毒是否会导致一些难以发现病因的疾病,例如慢性疲劳症候群(又称肌痛性脑脊髓炎)和发炎性肠道疾病。杰克森实验室(Jackson Laboratory)免疫学家尤努马兹教授(Derya Unutmaz)推测,病毒可能会引发破坏性发炎反应,或者可能会改变人类微生物群系(microbiome)中细菌的行为,进而破坏新陈代谢和免疫系统。

尤努马兹教授表示,透过机器学习,研究人员可能会发现隐藏在病患身上的病毒。此外,由于机器学习可在庞大的资料集中找出规律,这种方法可以将病毒资料与细菌进行关联,并将病症资料与蛋白质变化进行关联。尤努马兹教授表示:「机器学习可以发现我们从未想到的知识。」

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180405A0S4BS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券