干货分享:如何学习关系网络可视化?

来源:余政彦

关系网络可视化之node-link:点与线构成的网络科学(network science)

移除我在美国东北大学信息设计艺术硕士项目(Master of Fine Arts in Information Design and Visualization)就读的第三个学期(2017秋季)修了四门课,其中一门课專注关系网络可视化(network visualization,又称graph visualization,图可视化)的探索与实践,属于计算机科学系博士班课程,一周上两次。

Cody Dunne

授课老师是Cody Dunne,在马里兰大学取得硕士与博士学位,师从Ben Shneiderman大神。Cody他专注在信息可视化、网络科学、人机交互等,在进入东北大学教书之前,他曾担任IBM研究单位的科学家。这门课配有两个助教(研究领域皆是关系网络可视化),负责解决作业问题与其他课程需求。

这门课是我在美国这一年半以来选到压力最大的一门,因为它属于计算机科学系博士班的课程,所以会有许多文献需要阅读;另外,部分作业很要求编程的能力;再加上每周需要上两次课,通常课程只需要一周上一次,每次三个半小时,这门课被切成两半,虽然总上课时数没有变,但课程压力增加许多,作业与每周阅读文献的量变成一般课程的两倍,例如周二上完课,我们必须在下一次上课前一天,也就周三(隔天周四上第二次课)之前到课程论坛上传文献阅读心得。

具体课程作业要求:

整个学期总共38篇文献需要阅读(每周约5至7篇,集中在课程前半部分),需要上传阅读心得(且带批判思维,不能只是梳理文献结果),然后上课的时候有小考。

整个学期有5门作业

图可视化工具实操(两人一组上台报告展示)、

2个D3可视化实作(一个为基础的图可视化实现,另一个为实现仪表板的交互可视化)、

文献报告(一人一组,选一篇文献上台报告)、

用代码实现一个经典的图可视化算法(是所有作业里的大魔王,反正我是花了两个整天耗在图书馆还是没有完成。。。)

期末专题:2至3人一组,与业界人士合作(从他们那边拿数据与了解他们的需求于需解决的问题),完成一个完整的图可视化开发(从草拟到可交互的交互可视化、撰写符合规范期刊格式的论文、上台报告展示等)

课程的详细信息与课件皆可以在这个网站查看与下载:https://codydunne.github.io/cs7295-f17

关系网络可视化,简而言之是用点(nodes)与线(edges)或矩阵(matrix)去呈现复杂数据之间的网络关系。这一系列的文章共有7篇(包括本篇),预计一周发一篇(求鞭策hhh),主要梳理了我在这门课学到的知识,从阅读文献到实际做一个关系网络可视化项目:

开篇简介

简要介绍关系网络可视化系列文章的内容。

文献泛读之1: node-link(点线) & matrix(矩阵)

牵涉到关系网络可视化的种类,大致可以分成两个类型,一个是使用node-link(点线)、另一个是使用matrix(矩阵)。在课堂的文献阅读中,可以很明显的了解,呈现关系网络可视化主要分成这两个阵营。node-link(点线)可以呈现较多细节资讯,但容易使关系网络可视化变得很复杂;matrix(矩阵)可以大幅简化关系网络,并清楚呈现两两之间的关系,但同时也遗失了关系网络数据中的部分重要信息,像是无法呈现地理信息。两者间的爱恨情仇会在这篇大致梳理。

a) Node-link 点线 & b) Matrix 矩阵

文献泛读之2: 可视化的视觉呈现

包括关系网络可视化,在呈现数据可视化时,需要注意颜色以及其他视觉元素的使用,如何避免使用错误的颜色而造成曲解、如何使用格式塔法则(Gestalt Principles)来辅助可视化,将在此文探讨。

使用彩虹色阶(左边)容易产生视觉曲解

文献泛读之3: 辅助视角的呈现(integration & coordinated views)

此章节会介绍如何使用其他数据可视化的样式来辅助关系网络可视化。如同仪表盘(dashboard),关系网络也会需要其他可视化来帮助使用者来探索与深入了解数据之间的网络关系。

移除左右两个不同视角的可视化可以辅助使用者了解同一个数据

左右两个不同视角的可视化可以辅助使用者了解同一个数据

关系网络可视化工具:gephi

选一个网络可视化工具并上台报告是这门课的作业之一,可以选择的工具有:Gephi、NodeXL、Cytoscape 、Tulip、Visone 等等,我们这组(两个人)选了gephi。gephi的特色在易于操作以及可以呈现动态网络关系等,但因为它也是一个开源的工具,所以有许多坑。此篇将手把手讲解如何使用Gephi的基本功能以及会遇到的问题。

gephi

文献报告

此篇也是课堂的其中一个作业,每个人需要选一篇文献(由老师列出,其他文献可以在课程网站的Paper Presentations查看)精读并上台报告。我选的是《Many-to-Many Geographically-Embedded Flow Visualisation- An Evaluation》,发表于2016年。对于我而言,这篇论文的特点在于列举的文献与数理相当具有逻辑,可以从这篇文章的文献综述去了解为何作者要提出一个新的关系网络可视化样式来解决问题;另外,文章中详细讲解一个新的关系网络可视化样式的设计过程以及如何设计实验来检测该可视化,也是我获益良多的部分。

如何在node-link与matrix之间取舍,是此篇文献的一个重点

期末项目

作为课程的重点项目,我跟一个同学合作,从数据选取、问题探索、可视化样式脑力激荡、编程使用,从头到尾的做出一个可以交互的可视化与一篇结构完整、已经可以发表的论文。此篇将呈现整个项目设计过程。

期末项目的截图

以上,新年快乐。

参考文献:

M. Ghoniem, J.-D.Fekete, and P. Castagliola, “A Comparison of theReadability of Graphs Using Node-Link and Matrix-Based Representations,”IEEE Symposium on Information Visualization, 2004.

Stef van den Elzenand Jarke J. van Wijk, “Multivariate NetworkExploration and Presentation: From Detail to Overview via Selections andAggregations,” 2014.

Michelle A. Borkinet al., “Evaluation of Artery Visualizations for HeartDisease Diagnosis,” 2011.

Yalong Yang et al., “Many-to-ManyGeographically-Embedded Flow Visualisation- An Evaluation,” 2016.

本文来自企鹅号 - 图纸集媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

骨灰级乐高粉讲述:我是怎么用算法给两吨积木自动分类的

唐旭 编译自Jacques Mattheij博客 量子位 出品 | 公众号 QbitAI 本文的作者Jacques Mattheij自小就是一名乐高粉。在接触乐...

3426
来自专栏数据科学学习手札

(数据科学学习手札10)系统聚类实战(基于R)

上一篇我们较为系统地介绍了Python与R在系统聚类上的方法和不同,明白人都能看出来用R进行系统聚类比Python要方便不少,但是光介绍方法是没用的,要经过实战...

3288
来自专栏腾讯大数据的专栏

机器学习 刀光剑影 之屠龙刀

机器学习是一个大武林,这里面江湖人士颇多,“发明”出来的算法兵器也是五花八门,浩瀚如海,足够你数上三天两夜了。然而,这些兵器行走江湖能用的不多,真正无敌的更是屈...

1908
来自专栏华章科技

PM2.5这个锅背的值吗?数据科学家建模给你论证下

当看到诸如“我们都在等待第一批死在北京的人”等一些耸人听闻的新闻标题时,我真的很想知道,近年来北京的空气质量到底是有所改善还是逐步恶化?

663
来自专栏全栈数据化营销

品牌知觉图:精准找到空白市场定位,数据化衡量品牌效果

如何知道自己品牌留给客户的是什么印象呢?如何印证品牌推广和塑造的效果呢?如何有效寻找在品牌建设中的空白点和机会点呢? 这次就介绍在品牌建设中会经常用到的品牌知觉...

36011
来自专栏ATYUN订阅号

研究团队利用GAN预测未来长相

有时警方搜寻一个失踪多年的人或逃犯,线索就只有一张旧照片。艺术家或计算机程序可以尝试预测这些人现在的样子,但这两种方法都有缺陷。现在,科学家们利用先进的人工智能...

805
来自专栏xingoo, 一个梦想做发明家的程序员

白话推荐系统——从原理到实践,还有福利赠送!

之前流水账似的介绍过一篇机器学习入门的文章,大致介绍了如何学习以及机器学习的入门方法并提供了一些博主自己整理的比较有用的资源。这篇就尽量以白话解释并介绍机器学...

1936
来自专栏AI科技评论

动态 | 同济大学「智能大数据可视化实验室」开源FaceX,包含500余万张卡通人脸表情简笔画

AI 科技评论消息,日前,同济大学「智能大数据可视化实验室」(iDVX Lab) 开源了一个包含 500 余万张卡通人脸表情的高质量简笔画数据集 – FaceX...

723
来自专栏大数据文摘

炮灰模型:女生如何选择追求者的数学模型?

1462
来自专栏全栈数据化营销

商业数据分析案例:客户流失分析之—探索性分析

对无序型离散变量而言,以本案例中的手机品牌为例,对于名义型离散变量,关注的是该变量的取值分别有哪些,各个取值占比是多少。从表格上看,列出离散变量各个取值的数量和...

952

扫码关注云+社区