前沿 | 机器学习助力医疗,通过数据分析发现近6000种新病毒

选自Nature

作者:Amy Maxmen

机器之心编译

参与:黄小天、刘晓坤

最近,研究者借助 AI 技术发现了近 6000 种前所未闻的新病毒,这一工作已在 3 月 15 号由美国能源部(DOE)组织的一场会议中展示,成为了一种探索发现数量巨大、种类繁多的病毒的新工具。

尽管从人类健康到垃圾降解,病毒的影响力无处不在,却很难被研究。科学家无法在实验室培植绝大多数病毒,确定其基因序列的尝试也多遭失败,因为它们的基因组极小,且进化迅速。

近年来,通过将取自不同环境的样本中的 DNA 进行排序,研究者已经获得了一些未知的病毒。为了确定目前存在的微生物,研究者搜集了已知病毒和细菌的基因特征,就如同文字处理器的「查找」功能会突出显示文档中包含特定字母的单词。但这一方法经常失败,因为病毒学家无法搜集他们不知道的东西。机器学习解决了这一问题,因为它可以发现海量数据中的潜在模式。机器学习算法解析数据,从中学习,接着自动分类信息。

南加州大学洛杉矶分校的计算生物学家 Jie Ren 说:「从前没有研究病毒的好方法,但现在就不同了,我们有了新工具。」

上周日,美国能源部联合基因组研究所(JGI)的计算生物学家 Simon Roux 训练计算机识别不常见的 Inoviridae 病毒家族的基因序列。这些病毒生存在细菌中并改变宿主的行为:比如,它们会使引起霍乱的细菌即霍乱弧菌的毒性变得更强。Roux 在 JGI 组织的会议上(加州,旧金山)展示了其研究,称在他的研究开始前已识别到的基因组种类不到 100 种。

Roux 展示了一个机器学习算法,该算法使用两个数据集:一个包含 805 个来自已知 Inoviridae 的基因序列,另一个包含 2000 个来自细菌和其他病毒的基因序列。算法可以找到一种方式来区分二者。

然后,Roux 向模型馈送大量宏基因组学数据集。计算机恢复了一万多种 Inoviridae 基因组,并将其分成不同种类的集群。这些集群之间的基因变异非常大,意味着 Inoviridae 可能有很多家族。

病毒学习

在另一项独立研究中,巴西圣保罗大学的生物信息学家 Deyvid Amgarten 应用机器学习来在城市动物园的天然肥料堆中寻找病毒。他将算法设计为可以搜索病毒基因组的几个可分辨特征,例如给定长度的 DNA 双链的基因密度。经过训练之后,计算机复原了几种可能是新型的基因组,Amgarten 说。他将这个结果在 JGI 会议上进行了展示。最后一步是学习这些病毒生成的蛋白质种类,然后检查哪些蛋白质将加速有机物的破坏。「我们希望改善肥料的质量。」他说。

Amgarten 是从去年报告的一项机器学习工具即 Ren 的团队开发的 VirFinder 中得到灵感的。VirFinder 被设计用于寻找 DNA 碱基组合,例如 DNA 双链中的 AT 或 GC。Ren 将算法应用到从健康人和肝硬化患者(由肝炎或慢性酒精中毒导致的疾病)的脸部取样的宏基因组。机器将取样的病毒完成了分组之后,该团队注意到样本中某些特定类型的基因组在健康人群中相对更少或更多,这意味着这些基因组相关的病毒可能导致了疾病。Ren 的成果是一项很诱人的发现:生物医学研究者长期以来一直很困惑,到底是哪些病毒导致了那些疑难杂症,例如慢性疲劳综合症(也称为肌痛性脑脊髓炎),以及炎症性肠病。

康涅狄格州法明顿市的基因组医学杰克逊实验室的免疫学家 Derya Unutmaz 推测,病毒可能触发了一些毁灭性的反应,或者改变了人体微生物群系的细菌行为,从而使新陈代谢和免疫系统变得不稳定。Unutmaz 说,通过应用机器学习,研究者可以发现患者体内仍被隐藏的病毒。此外,由于 AI 可以在大规模数据集中发现模式,该方法也许可以将病毒数据和细菌关联起来,然后和症状相关的蛋白质变化关联起来。「机器学习可以揭示出我们甚至从没思考过的问题。」Unutmaz 说。

原文地址:https://www.nature.com/articles/d41586-018-03358-3

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-03-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

学AI的高中生还有5秒钟到达战场,请90后叔叔阿姨做好准备

这本给高中生的人工智能选修教材让许多人惊诧:现在高中生都这么前沿了么?甚至在海外,也有许多网友将其视为中国AI进一步崛起的一个证明。

12810
来自专栏算法channel

Facebook开源 时间序列预测框架 Prophet

时间序列(Time Series Analysis),应用非常广泛,从业务预测到全球变暖;从商品价格到股票、基金走势。

12810
来自专栏AI科技评论

独家 | ACL 2018 现场:设立亚太地区分会 AACL,最热研究当属 Learning

AI 科技评论按:墨尔本时间 7 月 16 日早上九点,ACL 2018 正式开幕。在开幕仪式上,大会多位组委会代表上台发表致辞,ACL 现任主席、UC Ber...

14840
来自专栏新智元

2018谷歌学术影响力排名出炉:CVPR进入前20,ResNet被引最多过万次!

【新智元导读】谷歌学术昨天发表了2018年最新的学术期刊和会议影响力排名,CVPR和NIPS分别排名第20和第54。在排名第一的Nature里,过去5年被引用次...

12230
来自专栏思影科技

《大话脑成像》之七——假设检验和效果量

费希尔推荐您欣赏这篇文章并关注思影科技! 又到了新一期与读者见面的时候,这期内容可能有点难,有的人会说高端玩家,你膨胀了,你不带我们玩了,不存在的,我还是你们的...

31280
来自专栏AI科技评论

开发 | 谷歌加码机器学习,据报将收购数据科学社区 Kaggle

kaggle.com主页 AI科技评论3月8日消息,科技博客 TechCrunch 援引消息人士报道称,谷歌正在收购 Kaggle —— 一个举办数据科学和机器...

28470
来自专栏PPV课数据科学社区

我用一只母鸡,就能把股市给你讲明白了

从前,在一片广阔的大草原上,有很多只母鸡,他们,吃着火锅唱着歌,吃着青草下着蛋。但是,母鸡们又不愿意像这样日复一日的吃草,下蛋。于是,一场革命性的变革即将到来…...

31680
来自专栏新智元

【遗失的秘钥】贝叶斯定理:人工智能的进化论?

贝叶斯定理正在变得如此流行,以至于在CBS剧《生活大爆炸》中也出现了它的身影。纽约时报说,贝叶斯统计学家“遍布一切,从物理学到癌症研究,从生态学到心理学”。物理...

35180
来自专栏数据猿

投稿 | 揭秘仿药巨头TEVA的药品一致性诀窍,背后也是数据的功劳!

<数据猿导读> 自2015年下半年以来,关于仿制药一致性评价相关政策密集出台,关于仿制药的质量问题已经成为当前需要立即解决的问题。在TEVA,工程师通过使用JM...

36940
来自专栏量子位

一群学术大牛做了份机器学习新期刊Distill:让学术论文可交互

王新民 李林 编译整理 量子位·QbitAI 出品 机器学习研究几乎每周都有新进展,不过,这些新进展变成论文呈现在我们眼前的方式,可以说是百余年不变。 昨天,G...

27040

扫码关注云+社区

领取腾讯云代金券