深度学习如何解决生物调试问题?

【编者按】深度学习在近几年实现了巨大的突破,而这一方法也被应用到越来越多的领域,用于解决过去在这些领域难以解决的问题。可以预见,在未来的科研中“深度学习+学科应用”将得到更广阔的应用,人工智能和深度学习方法也会变成我们生活和科研中水和电一样随处可见的东西。本文就是深度学习在生物科学领域应用的一个例子,原文刊载于20n.com,雷锋网特此编译全文,供读者参考。

生物学现在面临着调试的困难。生化系统(细胞)很复杂,深入研究它是十分有意义的。观察你所了解的化合物是很有难度的,想要看到未知的化学变化就更难了。调试问题的挑战,通俗地说就是已知的未知问题和未知的未知问题,正在艰难前行。假如能够收集大量的多维的、密集的生物数据,我们想知道深度学习能否帮助解决生物调试问题。

过去的两年中,我们已经设计了180多个酵母菌和病毒细胞来工业化生产相关化合物,例如,其中一个酵母菌是第一个能产生对乙酰氨基酚的细胞,我们最近也开始观察人类疾病细胞。无论是对修饰后的微生物细胞还是人类疾病细胞,鉴定其与正常细胞的区别,是极有意义的,在这里,我们一般将正常细胞(也就是原株和健康细胞)称作是对照细胞,把另一种细胞称作变量(通过基因处理或者人类疾病修饰)。

现代技术:科学家从现有的数百万的化合物中挑选出一个或几个,检查每一个化合物的变异细胞是否区别于对照细胞。他们通过分析仪器(比如LC-MS)来比较数据来源找到区别所在。标准的工作流程也有会极少的误差,因为仪器校正也会有误差。LC-MS仪器的有限精确度和不同化合物信号之间的碰撞都使得这项工作变得复杂。

LC-MS分析联合深度学习:我们输入原始LC-MS数据(没有经过个人推测分子的校正),通过深度学习模型来验证变量样本中哪个分子是不一样的。

举个例子,我们最近构建的能产生对乙酰氨基酚的酵母菌模型,敲掉几个基因后预测新的基因插入,这是很新颖的通路搭建。我们用葡萄糖介质培育变异株,同时培育原株酵母菌作为对照组。把这些菌种放在柱子中,会有200多个分子通过柱子。通过柱子出来的第五个分子的峰如下图所示。(下图左侧是变异组,右侧是对照组)

同时,系统识别出达到峰值时的化学物质分子式是C8H9NO2。这个分子式很明确是对乙酰氨基酚。它也识别出了下面几个结构式(最右边的是对乙酰氨基酚),我们设计的这个通路分析识别出了这些备选结构中最有可能的是对乙酰氨基酚。

这种分析的本质是公正的,非靶向性的,这让我们有信心解决调试设计细胞问题。它能够突出变异细胞组和对照组之间的主要差别,并且准确预测相应的化合物。其他的主要识别峰可以观察到副反应变化,这些变化是不能通过靶向分析检测到的,靶向分析就是只分析特定的产物。我们去年就是一直在做这种靶向分析,但是现在我们可以识别好多我们一直在丢失的数据:所有的这些附加峰都是在细胞中加入几个基因后的副反应所产生的,当接下来修饰细胞化学结构的时候这些差异都是应该考虑在内的。

这种能分析细胞中每个变化的非靶向分析是解决生物调试问题的有力工具,深度学习也是解决该问题的关键点。

|通过深度学习的非靶向代谢组学

生物化学的调试通路包括以下几步:

准备样品(变异组和对照组)

液相色谱质谱联用(LC-MS)

每次LC-MS跟踪要收集20亿的数据点,需要跑2000多次,所以我们要通过大量的工程细胞株存储4万 亿的数据点。

深度学习

识别变异组和对照组之间的差别。

SAT计算

搜索化学式来定位相对应变异中的差别的化学式。

酶的生物化学的网络模型

预测并且排列与细胞工程相关的生物化学中的变化相关的分子和生物学通路。

我们来集中看一下深度学习模块。如果我们能从LC-MS中得到几个重要参数(如碎片离子、保留时间和峰强度),我们就能绘制一个类似下图(左侧)的3D图,或者热点图(右侧)。每种图像都能生成高分辨率的PDF图像。缩放热点图找到高强度的峰(红色)有助于观察数据的密度。

总体的视野能观察到全部数据,所以我们只看有大约50个数据点的小窗口,也就是全部数据的0.0000025%。看下面这个局部3D图窗,试着判断一下它是否是“峰”。

你可能会正确地叫出每个峰的名称。当我们起初分析这些来源的时候,我们通过人为的视觉评估把这些峰分类为“完全是峰”、“不完全是峰”和“可能是峰”三类。

尽管人类可以很容易通过肉眼来分辨LC-MS的峰,但是开发一种稳健的计算机方法来分类峰还是有困难的。我们使用深度学习来使空间减小到几十张图像那么大,这些图像可以概括数千个LC-MS示踪的结果。我们可以通过深度学习卓有成效地减小LC-MS数据的变量和复杂性,从而能通过示踪归纳出常见的特征。

我们的第一次重复使用了简单的网络,并且取得了小小的成功,但是如果使用更深层的、多层的网络可能会更好地学习到LC-MS示踪的细微差别。正由于这一点,我们成功地在一次示踪中鉴别出好多峰,同时不包括许多人类一般会忽略的像峰似的特点。下图中,左侧是一组通过网络学习得到的峰(很容易看到主峰),右侧是识别出的噪声峰的特征。

证明了我们能识别个别峰之后,我们又致力于归纳出这种方法来做大规模的不同分析。这种方法能让科学家提供一个实验的对照组,并且能在任何情况下都能检测分子。

从样本到遗传变异

深度学习能够准确识别差异,通过建立深度学习能把我们的分析拓展到相比细胞系的基因变化上。整个柱子汇集了深度学习分析的成分和其他成分。一个专门的生化计算软件SAT能够解析化学式。能够理解酶机制、底物特性和细胞链接的网络分析师可以推出分子结构。生物信息学模块完成了解释示踪结果中基因变化的最后一步。

展望:深度学习解决生物调试问题

合成生物学:通过准确地知道人为修饰或其他修饰的各种影响,生物制品的微生物工程的进展急速加快。这些细胞在可控的环境下进行培养,大多数的新陈代谢都是可以完全调整的,所以简单的深度学习模块有望促进生物学的发展。

人类诊断:在疾病细胞和正常细胞中,人类细胞是有许多细微变化的。我们正在尝试更复杂的深度学习网络能够解决疾病细胞的非靶向诊断问题。这一点很值得期待。

深度学习预测化合物特点:需要练习深度网络的数据量可以从LC-MS中获得。其他生化数据在细节上是极度丰富的,但是在数量上可能没那么大量。化学结构预测是本质,这些情况需要我们在训练中有所创造。我们已经开展项目来研究更复杂的模型和训练模式。如果感兴趣请发邮件到info@20n.com来联系我们吧。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-10-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

如何让无人机灵活穿越满是障碍的房间?训练一个循环神经网络试试看

如今,深度学习已经在语音识别、计算机视觉等多个应用领域取得了重大突破。然而,要说到它在机器人领域的发展,那就要另当别论了——深度学习在机器人领域,不仅发展速度慢...

32710
来自专栏AI研习社

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

计算机视觉盛会 CVPR 2017已经结束了,相信读者们对今年的 CVPR 有了一些直观的感受。 论文的故事还在继续 相对于 CVPR 2017收录的共78...

3156
来自专栏AI研习社

算法到实战,如何把深度学习应用到生活?| 回顾

计算机视觉是一门研究如何使机器“看”的科学,掌握解决具体计算机视觉任务的方法则会帮助我们解决大规模系统的复杂问题,其应用相当广泛,包括并不限于:图像分类,人脸识...

3106
来自专栏奇点大数据

谷歌大脑AutoML新进展:用进化算法发现神经网络架构

作者|谷歌大脑高级工程师 Esteban Real 编译|Debra 从 5 亿年前非常简单的蠕虫大脑到各种现代化结构,大脑经历了漫长的进化过程。如今,人类的大...

3515
来自专栏PPV课数据科学社区

“小数据”的统计学

一、小数据来自哪里? 科技公司的数据科学、关联性分析以及机器学习等方面的活动大多围绕着”大数据”,这些大型数据集包含文档、 用户、 文件、 查询、 歌曲、 图片...

3356
来自专栏量子位

想让AI读懂时尚?看看亚马逊新发的这两篇论文

安妮 编译整理 量子位 出品 | 公众号 QbitAI 亚马逊想让AI读懂时尚。 继在Echo Look中加入穿搭指导功能引发大量吐槽后,目前,亚马逊又发表了两...

3064
来自专栏AI科技评论

动态 | 如何让无人机灵活穿越满是障碍的房间?训练一个循环神经网络试试看

如今,深度学习已经在语音识别、计算机视觉等多个应用领域取得了重大突破。然而,要说到它在机器人领域的发展,那就要另当别论了——深度学习在机器人领域,不仅发展速度慢...

3279
来自专栏企鹅号快讯

算法到实战,如何把深度学习应用到生活?

计算机视觉是一门研究如何使机器“看”的科学,掌握解决具体计算机视觉任务的方法则会帮助我们解决大规模系统的复杂问题,其应用相当广泛,包括并不限于:图像分类,人脸识...

2018
来自专栏marsggbo

Andrew Ng机器学习课程笔记--week10(优化梯度下降)

本周主要介绍了梯度下降算法运用到大数据时的优化方法。 一、内容概要 Gradient Descent with Large Datasets Stochast...

1948
来自专栏AI科技大本营的专栏

忘掉PS吧!欢迎进入修图的神经网络时代

左边是原图,右边是修图。是不是觉得美女与右边图片的背景搭在一起,更有动感和帅气。可是不会修图啊,肿么办? 今天让我们来看一个有意思的AI应用,让不会PS的你,...

3375

扫描关注云+社区