Nature:数据可视化可提高科研成果的可重复性

交互式图表工具让科学数据更易读取,并提高其可重复性。

当 Benjamin Delory 开始撰写关于一种量化植物形态的新方法的论文时,他意识到其中一个图可能很难说明他要表达的东西。

他在该论文中提出了一个“永久性条码”(persistence barcode)的方法来描述植物根系的分支结构。问题是该如何具体说明这一方法。

德国吕讷堡大学(Leuphana University)的博士后研究员 Delory 指出,永久性条形码的底层算法是连续和动态的。最好的说明方式是展现动态效果。

科学图表通常呈现为静态图像。但是,这些图表与底层数据是分开的,因此读者无法通过放大感兴趣的特性来更详细地探索图表内的信息。而基因组科学家则需要将数百万个数据点塞进几厘米大的密集视觉图,因此这个问题对于他们来说更为重要。

计算算法的研究人员也会碰到这个问题。科学家经常在开放源代码库(如 GitHub)上发布软件,但让代码正常运行说起来容易做起来难。审阅者和其他感兴趣的人通常需要额外的软件和配置来使算法正常运作。

现在一些期刊通过支持交互式数字和代码来填补这个空白。其中之一是 F1000Research。该期刊去年与加拿大蒙特利尔的计算机公司 Plotly 和纽约市的 Code Ocean 平台达成了合作。F1000Research 的开放精神和数据可视化能力吸引了 Delory 和他的合作者将论文投到该杂志。该论文于 1 月份见刊。

交互式出版物

纽约时报(New York Times)和 fivethyeye.com 等网站的一大特点是使用交互式图表,帮助让读者深入研究一个故事的基础数据。但在科学出版中,交互式图表不太常见。

资深出版编辑 Thomas Ingraham 表示,F1000Research 的“活数据”——2014 年推出的交互式图表——可以不断更新新数据,但制图复杂,且费时费力。用户可以使用 Plotly 建立并分享散点图、线图、等高线图和地图的可视化。生成的图像允许读者放大数据,跨越图像和鼠标悬停点来查看绘图值。学生会员费为每年 59 美元。开源库允许研究人员使用 R、MATLAB、Python 和 Julia 代码创建免费的 Plotly 图形。

Code Ocean 网站提供每月 10 小时,存储容量为 50G 的免费服务,普通会员每月 19 美元起。它将代码、数据、结果和用于执行它们的计算环境汇集在一个独立的“计算胶囊”中,以复制作者的计算配置。其他用户可以从 codeocean.com 下载、修改和运行该代码,也可以通过论文中的小部件进行修改和运行。

现在 F1000Research 已经发布了 6 篇包含交互式部件的论文,其中五个有交互式图表,一个有 Code Ocean 小部件。今年,F1000Research 计划增加对交互式蛋白质 - 蛋白质相互作用图(使用网络映射工具 Cytoscape 生成)的支持。

事实上,制作交互式图表并没有那么复杂。根据布鲁金斯南达科他州立大学(South Dakota State University)的计算生物学家 Xijin Ge 的说法,他的一篇论文中加入了交互式 Plotly 图表,创造这些图表只需要一个额外的代码。西澳大利亚大学海洋研究所和地球科学学院(Oceans Institute and School of Earth Sciences at the University of Western Australia)的珊瑚研究员 Tom DeCarlo 为古海洋学、古气候学(Paleoceanography and Paleoclimatology)和生物地球学(Biogeosciences)等期刊创建了 6 个 Code Ocean 项目。他认为这对科学交流和重复性非常重要。

开源解决方案

对于那些寻求开源计算选择的人来说,一个名为 Binder 的工具非常有用。该工具可以将任何包含 Jupyter 笔记本(文本、代码和数据交错的文件)或 R 代码的公共 GitHub 存储库转换成可以在浏览器上运行的软件包。用户只需将笔记本存储库地址输入到 mybinder.org 的搜索栏中,网站便会自动创建一个可共享的交互式工作区。加州州立理工大学(California Polytechnic State University)的 Binder 项目团队成员 Carol Willing 表示,这确实有助于提高重现性和易用性。

瑞士苏黎世大学(University of Zurich)Binder 项目团队的成员 Tim Head 指出,这样的工具也简化了同行评议。当他被要求评议一篇期刊文章时,他感到沮丧的是软件无法运行。Head 认为,如果他们给他发了 Binder 链接,就不会有这个问题了。

可用于创建交互式图像的开源平台也很多,包括 Bokeh、htmlwidgets、pygal 和 ipywidgets。大多数平台是以编程方式使用的,通常使用的是科学中常用的 R 或 Python 语言。例如,编程人员可以使用 ipywidgets 将交互式 3D 图、地图和分子可视化放入 Jupyter 笔记本中。另一个用 JavaScript 编写的平台是 Vega-Lite。因为 Java 语言在科学领域不太流行,西雅图华盛顿大学(University of Washington)的 Jake VanderPlas 和加州州立理工大学(California Polytechnic State University)的 Brian Granger 开发了一个名为 Altair 的 Python 界面,使 Java 更易于访问。

尽管这些工具中的大多数倾向于为特定图形类型提供功能,但 Vega-Lite 和 Altair 在描述变量如何映射到不同的视觉特征,如颜色或形状等功能时使用的“语法”相对灵活。这两个工具还允许图形相互连接——当用户选择一个图的某个区域时,附近区域的显示则相应地更新。华盛顿大学(University of Washington)计算机科学家 Jeffrey Heer 指出,这让他们能够以多维的方式探索实际数据之间的联系。Vega-Lite 就是 Heer 实验室开发的。

另外,波士顿 Rstudio 开发的 R 语言平台 Shiny 和 Plotly 公司开发的 Python 平台 Dash 让研究人员通过使用下拉菜单和滑块控件等小部件来混合数据、图形和代码,从而创建了交互式应用程序。这两个平台通过将用户的小部件操作传输到远程服务器,远程服务器运行底层代码,并更新页面。

由此产生的应用程序可以使不熟悉编程的研究人员访问数据和工具。例如,特拉维夫大学(Tel Aviv University)的研究生 Tal Galili 等人合作开发了一个基于 Plotly 的工具箱,用于根据上传的数据集中构建交互式热图,以及一个运行代码的 Shiny 界面。北卡罗来纳州达勒姆杜克大学(Duke University)的统计学家Çetinkaya-Rundel 为她的本科统计课程建立了 Shiny 的资源,以帮助她在讲座中阐明复杂的概念。

Çetinkaya-Rundel 表示,上课的时候,她会打开一个交互式图表,然后说‘刚才我们已经介绍了这个东西,现在我们移动小部件时会发生什么’,这种教学方式是很有意思的。

在期刊网页上展示这样的交互式图表需要期刊网页对创作工具、编辑工作流程和基础设施进行更改。也可能涉及将科学数据委托给第三方,但这些第三方并不总能保证其持久性。

eLife 负责产品开发的 Giuliano Maciocci 表示,为了解决这个问题,eLife 的可重现文献堆栈项目(Reproducible Document Stack project)旨在创建一个终端到终端的工具集,以编写、提交和发布计算可复制的文档。他还指出,这个计划是将一篇论文的核心内容——文本、图形、代码、数据和计算环境——封装在一个可下载的对象中。为了鼓励大家使用该堆栈,eLife 期刊正在开放源码。

取得进展

现在支持 Code Ocean 集成的期刊和出版商越来越多,它们包括 GigaScience、IEEE、SPIE、剑桥大学出版社和 Taylor&Francis。《细胞生物学杂志》(The Journal of Cell Biology)基于开源 OMERO 软件的 JCB DataViewer,这让读者可以浏览显微镜图像的原始图像,而不是通常看到的经过处理的压缩文件。一个相关的工具图像数据资源(Image Data Resource)可为在任何期刊上发表的论文提供类似的功能。《自然》(Nature)杂志也开始支持交互式图表,例如一篇描述 DNA 元件百科全书计划(Encyclopedia of DNA Elements)的论文中就使用了这种图表。一位《自然》杂志发言人表示,《自然》正在调研其它几个互动代码和图表平台。与此同时,研究人员也经常在自己的文章中链接到外部可视化。

德克萨斯州休斯顿贝勒医学院(Baylor College of Medicine)的 Erez Lieberman Aiden 指出,随着越来越多的期刊采纳交互式图表,科学信息的在线表达可能会发生根本性的变化,这意味着可重复性的提高。Aiden 最近在《细胞》(Cell)杂志上发表了一篇包含染色质相互作用的可视化图表的论文。静态图表只是数据的一个体现。Aiden 认为,有相关背景的读者需要能够得出自己的结论。2017 年阅读文献的方式与 1974 年阅读报纸的方式应该是不一样的。

原文检索:Kendall Powell. (2018) Data visualization tools drive interactivity and reproducibility in online publishing. Nature, 554: 133-134. 张洁 / 编译

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180217B03KRP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券