前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Nature】机器学习革新生物数据分析,自动物种分类成为可能

【Nature】机器学习革新生物数据分析,自动物种分类成为可能

作者头像
新智元
发布2018-03-27 13:55:32
8360
发布2018-03-27 13:55:32
举报
文章被收录于专栏:新智元新智元

【新智元导读】Nature今日刊文,介绍了信息可视化带给生物学的变革。其中,研究人员通过计算机视觉技术,用数码影像生成数字化三维模型,计算机能自动识别标本的各项特征,而这些数据可以用于确定该生物与其他物种以及同种类中不同个体间的关系。

(文/Ewen Callaway)巧妙的可视化能改变生物学家对数据的理解。现在,科学家已经能够对每个 RNA 分子进行测序,或把显微镜图像录入硬盘,生命科学家正在寻找越来越多的新创可视化方法,理解他们收集的大量原始数据。

今年3月,在德国海德堡举行的欧洲分子生物学实验室会议,展示了一些令生物学家感到振奋的可视化方法。该会议名为“生物数据可视化”(Visualizing Biological Data),澳大利亚悉尼Garvan 医学研究所的生物信息学家 Sean O'Donoghue 是其发起人之一。该会议目前已经到了第7届,吸引了各种各样的实验室研究者、计算机科学家和设计师。

下面,我们展示了 O'Donoghue 挑选的一些引发生物学变革的可视化方式。

发育中的斑马鱼胚胎的细胞流,上图是 3D 显微镜数据,下图是三维显微镜数据的平面投射。来源:Nico Scherf/Nature

马克思普朗克分子细胞生物学和遗传学研究所的细胞生物学家 Nico Scherf 观察了斑马鱼胚胎发育过程中,细胞形成不同胚层和器官的迁移路径。Scherf 团队开发了一种叫“light-sheet microscopy”的技术。但是,当追踪单个斑马鱼细胞的路径时,得到的轨迹是一团乱麻。

于是,Scherf 借用了分析大气和洋流的流体力学方法,绘制染色线图,标注主要路径。为此,Scherf 编写了软件用于分析图像。目前为止,他通过这种方法发现了一个基因突变,这个突变只发生在斑马鱼发育初期很早的阶段,会改变细胞运动轨迹,导致斑马鱼器官发育畸形。Scherf 认为,其他研究生物发育的人也可以因此受益。

普林斯顿大学的发育生物学家 Jasmin Imran Alsous 想弄果蝇卵室的显微镜图像,果蝇的卵室是一个精细胞经过4次不完全的不对称分裂后形成的一团组织。Alsous 从毕加索那里获得灵感,最终她得到了16个相互连接的细胞,其中既包括了发育中的胚胎,也纳入了周围为胚胎提供养分的细胞。

Alsou 的导师曾经发给她一篇文章,里面讲了毕加索描绘公牛的版画,毕加索笔下的公牛一头比一头抽象。Alsou认为同样的原理也适用于描绘果蝇的卵室。于是,她将果蝇卵室的荧光显微镜图像转换成一串数字,明确表示每个细胞与其他细胞的连接方式。借助抽象的方法,Alsou发现在卵室可能的结构中,大约有72种比其他更为常见。Alsou如今正在研究不同的结构对果蝇的胚胎和发育的影响。

O'Donoghue说,他最初尝试将脂肪细胞受胰岛素影响的过程可视化时,得到的是一团分子路径的乱麻。O'Donoghue的同事以前测量过细胞中的蛋白质在胰岛素影响下磷酸化的过程,一小时之后细胞才停止燃烧脂肪生成能量,重新开始吸收糖分并储存脂肪。

著名的可视化案例:19世纪法国土木工程师Charles Joseph Minard 的拿破仑入侵俄国。来源:维基百科

19世纪法国土木工程师Charles Joseph Minard的著名信息图示给了O'Donoghue启发。Minard将拿破仑入侵俄国的行军路线、军队人数、重要战役、时间、温度等6种类型的数据融合在一起,以平面图的形式表现了出来。O'Donoghue将胰岛素作用下的细胞看成钟表,连续的磷酸化过程按顺时针方向围绕在细胞周围。同时,O'Donoghue还将蛋白质在细胞中的位置及其与其他参与反应的分子之间的关系描绘了出来。

【点击查看大图】细胞在胰岛素影响下蛋白质磷酸化的过程。来源:D. K. G. Ma et al. Cell 161, 948 (2015)/Nature

O'Donoghue表示,从这幅图中可以看出的一个重点是细胞对胰岛素的反应速度非常之快,很多变化都发生在最初的15秒之内。同行中有不少人都为这个速度感到震惊。O'Donoghue鼓励其他人也使用这种方法描绘动态过程,比如细胞周期。不仅如此,他还在互联网上发布了相关的教程。但现在O'Donoghue表示,要实现这样可视化还必须经过很多的手动调整。

插画师Graham Johnson以前是用手将细胞内的生命描绘出来。如今,Johnson是西雅图Allen Institute for Cell Science“动画细胞计划”(Animated Cell project)的负责人,他接手的第一份工作是为一本细胞生物学教科书制作插图。Johnson表示,虽然他力求准确,但还是很容易犯错,尤其是在描绘各个细胞成分相对大小的时候。而且由于是教科书的插图,准确性就显得愈发重要。

HIV-1 CellPACK 3D 模型。来源:G. T. Johnson et al. Nature Meth. 12, 85–91 (2015)/Nature

为了进行更系统的细胞建模过程,Johnson开发了一款叫做cellPACK的工具。使用时,研究人员输入实验数据,生成一系列自然规则,定义蛋白质、脂类和核酸等细胞成分所占的空间。Johnson想建立一个平台,这样有新的数据生成时,模型就能自动更新。然而,尽管很多研究人员对此感兴趣,但大多数生命科学家发现,使用这款工具太耗时间和精力,因此并不实用。Johnson表示,要从零开始生成一项规则需要花费好几个月的时间。Johnson预计在今年晚些时候发布该软件的简化在线版。

Johnson强调,这个工具的作用不只限于制作具有视觉冲击力的模型,它还能帮助科学家想到新的假说并进行检测。Johnson的团队制作了HIV内部结构的模型,然后以此预测形成HIV外壳的蛋白质如何与一种内部的蛋白质相互作用。Johnson表示,最近有一位病毒学家联系他,说自己使用cellPACK得出的推论在实验中得到了验证。现在,这位病毒学家有一大堆新的数据,想与Johnson合作建立新的模型。

使用标本高清图像,计算机能自动识别细胞并生成形状、大小等关键性状,使得自动物种分类成为可能。来源:John Tann, Australian Museum/CC BY 3.0. (下) Changming Sun/CC BY 3.0./Nature

不止是细胞生物学家和分子生物学家手头有太多的数据。据估计,地球上超过80%的生命体还没有被命名,而分类学家若是要找寻新的生命形态,不论是在热带雨林、海底还是地下室的植物标本馆,基本上都会有所发现。

堪培拉联邦科学与工业研究组织的植物昆虫学家John La Salle是Atlas of Living Australia的负责人,也是利用计算机视觉技术的多位科学家之一。现在有很多领域的科学家都使用计算机视觉技术辅助科研工作。La Salle使用的软件原本是为工业机器人和火星探测器开发的,使用物体的数码影像生成数字化模型。从蜻蜓翅膀的三维模型中,计算机能自动识别标本的性状,而这些数据可以用于确定该生物与其他物种以及同种类中不同个体间的关系。

La Salle的团队正使用计算机视觉技术更好地理解澳大利亚的生物多样性。其他科学家则使用计算机视觉技术为自然历史博物馆的植物标本生成数字化信息。La Salle想以这种全新的方式了解地球的生物多样性。

原文:The visualizations transforming biology

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-07-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档