生命之圈:生物数据可视化的美丽新方法

编译|席雄芬 丁一

校对|姚佳灵

当Martin Krzywinski在加拿大的迈克尔·史密斯基因组中心做系统管理员时,他并没有打算成为21世纪的生物学数据可视化的先驱。事实上,他甚至没有生物学的背景,虽然他已经完成了物理学和数学的研究生课程。但那是上世纪90年代末,他能够操控一台电脑。

Krzywinski建立了该中心的第一个信息系统,加强了其安全性,设计并优化了键盘布局,基本把极客能做的事情都做了。与此同时,他开始帮助研究人员做他们的项目,逐渐了解了他们的数据和数据的潜力。剩下的就是创造历史了。

急速下降的DNA测序价格以及细胞复杂性的日益增加很快释放了基因数据的洪流。但是,收集数据的工具已经远远超过了那些描绘数据的工具。Krzywinski说:“我很沮丧,阅读了大量的科学论文却不理解他们在说什么。我只是希望它们能够变得更简单,我没办法做什么使生物学更加简单,但我开始嘱咐人们做出更清晰的图(来描绘生物学)。”

为了做到这一点, Krzywinski开发了Circos ,一个开源的可视化工具用来以圆形排列表格数据。这是一个简单的想法,但具有革命性的意义:它已经数千次被用于可视化,并成为了我们当下信息丰富性的独特审美代名词。

从右上角顺时针看,人类、黑猩猩、老鼠、斑马鱼的基因排列成一个圆圈,每一个颜色方格对应一对染色体颜色。线条相连类似DNA序列,只是在视觉上强调,我们与其它物种共享多少基因。(图:Martin Krzywinski/EMBO)

这是英国图书馆正在进行的项目,从马到鸭嘴兽,对比16个不同物种与我们基因的不同。在每个小格中,一个圆圈代表与一个人类染色体之间的对比结果,人类的基因沿着圆的下半部分排列,而给定物种的整个基因组则位于圆的上半部分。(图:Martin Krzywinski)

在1848年9月13日,一次爆炸使得一根铁棒穿进了铁路建筑工头Phineas Gage的头骨。令人难以置信的是,Gage活下来了,但他的个性和气质发生了巨大的变化,这使他成为早年的行为神经解剖学教科书的案例。在这幅图像中,研究人员为那根铁棒如何扰乱人脑的特定系统建立模型,排列在Circos图的圆周上,它们之间的联系用连线表示。(图:Van Horn 等/PNAS)

对于这幅图像,Krzywinski试图以一种新的方式来思考基因组,转换它们的特征(即重复内容的数量)为方向矢量。他说:“现在,这些基因组都有意想不到的形状,这只是纯路径算法。有的图是圆形,有的图看似像大陆或国家的形状。我只是认为这是用一种令人吸引的方式来看基因组,而不只是给出一个序列。”(图:Martin Krzywinski)

对于信息设计者,π值是非常具有魅力的。Krzywinski为了绘制这两幅图,用颜色对数组编码,左图中,显示的是π值的前3422位;右图中,显示的是π值的前123,201位,它们以阿基米德螺旋状排列。(图:Martin Krzywinski)

乱糟糟的毛球:像这样的可视化帮助激发了Krzywinski的工作灵感。通常所说的毛线团,被用于将网络间的相互作用可视化。在正确的场景中,它们非常有用,但是当网络变得庞大而复杂时,它们没有辜负它们的绰号。Krzywinski说:“许多毛球看起来是随机的,而且许多时候,它们的结构会迷惑我们而让我们陷入思考我们知道某些实际上不知道的东西。”例如,上面的毛球来自于人类蛋白质的相互作用图,暗示了实际上并不存在的架构。研究人员写到:“明显地,黄色的节点带是图布局算法的一个伪影。”。该算法并没有解释红和蓝边缘明显的分离,但是人的裸眼能识别。(图:Rual 等/Nature)

Krzywinski最新的可视化工具是Hive Plot,在Hive Plot中网络节点被分配给有属性定义的轴,比如:连通性、密度、中心度。正是如此排列,结构特征变得明显,上图中,处于上方的是现在的E. coli(左)和Linux(右),对比处于下方的原来版本的结构特征要明显很多。Krzywinski说过,设计hive plots或者任何可视化的关键是要了解需要强调什么参数。虽然一些信息学家仍然相信,只要有足够的数据,就能按照规则简单地呈现原始数据。他说:“我不相信那个,你需要策划和解释。结果不会就这样出现。”(图:Martin Krzywinski)

在这里,研究人员比较三株拟南芥(一种经常被用来研究植物遗传模式的植物)和它们共同的祖先。每一株的基因组被放置在一个轴上;如果它们来自同一祖先序列,这两个区域就派生相连。(图:Mandáková 等/植物细胞)

Circos不仅用于比较基因组,也用于描绘它们,比如Gloeobacterviolaceus,一种最原始的光合细菌品种之一的直系后裔。虽然这张图无疑对科学家比对一个门外汉富含更多的意义,它仍然是一个引人注目的图:相比于十年前基因组的可视化,是意义深远的,并且明显更加丰富的。图:Saw等/ PLoS One

并非所有的Krzywinski的工作都涉及到数据可视化。这些小鼠胚胎血管图像是去年一期美国国家科学院院刊的封面图片,它来自多个微观横截面图像的合成,它们的颜色根据哈勃太空望远镜的照片和《星际迷航》进行了调整。Krzywinski说:“现在可以说已经完成了我的一个人生目标了,使生物学看起来像天体物理学”。(图: Krzywinski / PNAS)

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2015-09-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏思影科技

脑电研究:睡眠中的婴儿大脑预测发育情况

传统观点认为九个月大之后的婴儿才能建立真正词汇的语义长程记忆,之前都处在呀呀学语的原词状态。来自德国柏林洪堡大学的学者Manuela Friedrich等人探索...

2714
来自专栏量子位

AI说:你的书法有咖喱味丨看字识国别

1472
来自专栏思影科技

AJP:青少年饮酒后大脑发育轨迹发生改变

薛老师和他的猫推荐你关注思影科技 来自美国加州SRI国际健康科学中心、斯坦福大学等机构的研究人员联合在The American journal of psych...

3139
来自专栏PPV课数据科学社区

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

? 写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。 ———————————–作者说明——...

35510
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/4/8

注意下面很多链接需要科学上网,无奈国情如此 1. clustering 5种算法解释 The 5 Clustering Algorithms Data Scie...

3144
来自专栏生信宝典

勤能补拙,过目不忘,提高m6A助力好记性?中科院王秀杰/杨运桂合作最新成果

CellRes | 王秀杰组联合杨运桂组揭示RNA m6A修饰影响长时记忆形成效率

3212
来自专栏机器人网

为什么要将超声波感应用于无人机

无人机降落辅助是无人机所具有的一项功能,可以检测无人机底部与着陆区域的距离,判定着陆点是否安全,然后缓慢下降到着陆区域。尽管GPS监测、气压传感和其他传感技术有...

1074
来自专栏大数据文摘

猎杀埃博拉病毒的算法

3527
来自专栏BestSDK

如何用深度学习来识别恶意软件

这是一个悲伤的故事,你可能经历过。 你又热又渴,看到桌子上有一瓶看起来像水的东西,来不及思考,揭开瓶盖喝了一大口。哦!漏!是油! 时间回到10秒前,我们重来一次...

3309
来自专栏新智元

邓侃解读:医疗关键数据时间序列敏感度分析的通用方法

---- 新智元专栏 作者:邓侃 【新智元导读】密歇根州立大学、康奈尔大学腾讯研究院的几位学者,联名发表了一篇题为 “Identify Suscept...

3926

扫码关注云+社区

领取腾讯云代金券