前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生命之圈:生物数据可视化的美丽新方法

生命之圈:生物数据可视化的美丽新方法

作者头像
大数据文摘
发布2018-05-21 16:51:48
8790
发布2018-05-21 16:51:48
举报
文章被收录于专栏:大数据文摘大数据文摘

编译|席雄芬 丁一

校对|姚佳灵

当Martin Krzywinski在加拿大的迈克尔·史密斯基因组中心做系统管理员时,他并没有打算成为21世纪的生物学数据可视化的先驱。事实上,他甚至没有生物学的背景,虽然他已经完成了物理学和数学的研究生课程。但那是上世纪90年代末,他能够操控一台电脑。

Krzywinski建立了该中心的第一个信息系统,加强了其安全性,设计并优化了键盘布局,基本把极客能做的事情都做了。与此同时,他开始帮助研究人员做他们的项目,逐渐了解了他们的数据和数据的潜力。剩下的就是创造历史了。

急速下降的DNA测序价格以及细胞复杂性的日益增加很快释放了基因数据的洪流。但是,收集数据的工具已经远远超过了那些描绘数据的工具。Krzywinski说:“我很沮丧,阅读了大量的科学论文却不理解他们在说什么。我只是希望它们能够变得更简单,我没办法做什么使生物学更加简单,但我开始嘱咐人们做出更清晰的图(来描绘生物学)。”

为了做到这一点, Krzywinski开发了Circos ,一个开源的可视化工具用来以圆形排列表格数据。这是一个简单的想法,但具有革命性的意义:它已经数千次被用于可视化,并成为了我们当下信息丰富性的独特审美代名词。

从右上角顺时针看,人类、黑猩猩、老鼠、斑马鱼的基因排列成一个圆圈,每一个颜色方格对应一对染色体颜色。线条相连类似DNA序列,只是在视觉上强调,我们与其它物种共享多少基因。(图:Martin Krzywinski/EMBO)

这是英国图书馆正在进行的项目,从马到鸭嘴兽,对比16个不同物种与我们基因的不同。在每个小格中,一个圆圈代表与一个人类染色体之间的对比结果,人类的基因沿着圆的下半部分排列,而给定物种的整个基因组则位于圆的上半部分。(图:Martin Krzywinski)

在1848年9月13日,一次爆炸使得一根铁棒穿进了铁路建筑工头Phineas Gage的头骨。令人难以置信的是,Gage活下来了,但他的个性和气质发生了巨大的变化,这使他成为早年的行为神经解剖学教科书的案例。在这幅图像中,研究人员为那根铁棒如何扰乱人脑的特定系统建立模型,排列在Circos图的圆周上,它们之间的联系用连线表示。(图:Van Horn 等/PNAS)

对于这幅图像,Krzywinski试图以一种新的方式来思考基因组,转换它们的特征(即重复内容的数量)为方向矢量。他说:“现在,这些基因组都有意想不到的形状,这只是纯路径算法。有的图是圆形,有的图看似像大陆或国家的形状。我只是认为这是用一种令人吸引的方式来看基因组,而不只是给出一个序列。”(图:Martin Krzywinski)

对于信息设计者,π值是非常具有魅力的。Krzywinski为了绘制这两幅图,用颜色对数组编码,左图中,显示的是π值的前3422位;右图中,显示的是π值的前123,201位,它们以阿基米德螺旋状排列。(图:Martin Krzywinski)

乱糟糟的毛球:像这样的可视化帮助激发了Krzywinski的工作灵感。通常所说的毛线团,被用于将网络间的相互作用可视化。在正确的场景中,它们非常有用,但是当网络变得庞大而复杂时,它们没有辜负它们的绰号。Krzywinski说:“许多毛球看起来是随机的,而且许多时候,它们的结构会迷惑我们而让我们陷入思考我们知道某些实际上不知道的东西。”例如,上面的毛球来自于人类蛋白质的相互作用图,暗示了实际上并不存在的架构。研究人员写到:“明显地,黄色的节点带是图布局算法的一个伪影。”。该算法并没有解释红和蓝边缘明显的分离,但是人的裸眼能识别。(图:Rual 等/Nature)

Krzywinski最新的可视化工具是Hive Plot,在Hive Plot中网络节点被分配给有属性定义的轴,比如:连通性、密度、中心度。正是如此排列,结构特征变得明显,上图中,处于上方的是现在的E. coli(左)和Linux(右),对比处于下方的原来版本的结构特征要明显很多。Krzywinski说过,设计hive plots或者任何可视化的关键是要了解需要强调什么参数。虽然一些信息学家仍然相信,只要有足够的数据,就能按照规则简单地呈现原始数据。他说:“我不相信那个,你需要策划和解释。结果不会就这样出现。”(图:Martin Krzywinski)

在这里,研究人员比较三株拟南芥(一种经常被用来研究植物遗传模式的植物)和它们共同的祖先。每一株的基因组被放置在一个轴上;如果它们来自同一祖先序列,这两个区域就派生相连。(图:Mandáková 等/植物细胞)

Circos不仅用于比较基因组,也用于描绘它们,比如Gloeobacterviolaceus,一种最原始的光合细菌品种之一的直系后裔。虽然这张图无疑对科学家比对一个门外汉富含更多的意义,它仍然是一个引人注目的图:相比于十年前基因组的可视化,是意义深远的,并且明显更加丰富的。图:Saw等/ PLoS One

并非所有的Krzywinski的工作都涉及到数据可视化。这些小鼠胚胎血管图像是去年一期美国国家科学院院刊的封面图片,它来自多个微观横截面图像的合成,它们的颜色根据哈勃太空望远镜的照片和《星际迷航》进行了调整。Krzywinski说:“现在可以说已经完成了我的一个人生目标了,使生物学看起来像天体物理学”。(图: Krzywinski / PNAS)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档