黄骞:我们是如何在一张地图上表现86万个数据的

文:黄骞,超图软件统计事业部技术总监 来源:百度新闻实验室

作为一名数据工作者,我每天会接触到很多的数据可视化成果,美好的可视化作品简洁明快炫酷非常,让人心情舒畅。

但是不佳的数据可视化也越来越多。比如这张信息图,通过大大小小的飞机图标展示某岛空军部署情况,但读者能从中迅速获取所表达的信息吗?如果用“数字+图标”重新设计这张图能否更加清晰?最后,这张图也是密集恐惧者的一场灾难。

我认为目前可视化正在快速进入泡沫期。每天在诞生各类优秀作品的同时,会出现数倍的劣质作品。原因在哪里?

我的答案是——

技术的发展激发了人类过度表达的欲望。

2000年前,那时我们的祖先在竹简上刻字,镌刻每一个字都非常辛苦,技术落后使我们的表达简洁,比如说《老子》五千言,文辞深邃,流转久远,陈鼓应先生用厚厚一本书注译。而现在我们有了电脑输入法,打字飞快。但是结果呢(如下图)?

技术的发展在解放生产力的同时,也解放了过度表达的欲望,而这个势头正在数据可视化领域重演。

在现代工具的帮助下,我们点两下鼠标就可以做出精美的图表,而类似的图表在三五年前还要需要专业绘图者花两三天才能做出来。传播就更容易了,轻轻点击按纽就可以立刻传到朋友圈让大家看到。

极简主义面前,数据可视化需要回答的三个问题

这个时代可视化更需要简洁表达。极简主义目前很流行,但做到并不容易,一方面是由于技术局限,另一方面是必须努力控制自身表达欲望。一年前我们也经历了一场理智与欲望的斗争。

2013年,中国政府启动了中国第三次全国经济普查。这是人类历史上空前的一次壮举!国家动用了300多万基层调查员,对960万平方公里上的1200多万个经济单位,进行上千个指标的详细地毯式普查。

我们的团队为国家统计系统建设了十多年的统计地理信息系统,所以2014年接受了一个光荣而艰巨的任务把全国33个省(不包括台湾)328个地市、2000多个县的数据展示在一张地图上,一共3次经济普查每个地区包含90多个指标,总数据量达到86万个。

这个可视化工作很困难。迫使我们去思考三个关键的问题:

数据可视化的目的是什么? 作用对象是谁? 传递信息的关键是什么?

我想到了多年前看过无印良品的创始人原研哉撰写的《设计中的设计》,其中提到“Visualogue”的概念,也就是视觉对话。可以设想两个语言、文字不通的陌生人,给他们一张纸,一杆笔,他们一定是最简洁的方式把自己的想法画下来交流,这就是用视觉对话。这其实就是数据可视化的本质,通过可视化图表将对领域陌生的读者用比文字快十倍百倍的速度带进门。

这给了我一个启示,了解了人类的对话也许是理解可视化的钥匙。所以我破解了一次对话。所有对话都从信息源开始,信息经历通道传输给接收者,并形成反馈,此外还需要考虑来自环境的噪音以及人为噪音——语言中的无效信息。所有对话都是由这样的基本单元组成。

提升可视化效率的三个方法

参照对话模型就可以发现数据可视化的优化密码。提升对话效率通常有三个方法:

第一个是明确,明确的说话内容, 第二需要逻辑,每句话之间需要有关系, 第三是剔除噪音,包括自然和认为的噪音。

在数据可视化领域相对应的三项技术就是数据降维、关联关系和扁平交互。

1.数据降维

数据降维被认为是大数据处理的首要任务。而迄今为止最有效的降维方法依旧是人类已经使用上千年的分类。在没有计算机的时代,图书馆使用分类技术让我们在短时间内可以在成千上万本书中找到需要的信息。

在地理可视化中也充分利用分类技术,分析发现86万数据是可以分为时间和地区两个分组,而90多个指标可以分为综合信息,第三产业,第二产业、能源四大类。这三大维度时间、地区和指标构成数据空间,三个维度值确定就可以获得唯一的数据,比如北京市(地区)2013年(时间)的就业人口总数(指标);

如果确定两个维度就可以获得一个相关的数据集,例如2013年(时间)单位总数(指标),其全国分布图。

我们在是否尝试去了解分析自己面对的数据,良好的数据分类整理是实现优质的可视化的最好起点。

2.关联关系

数据本身并无意义,只有相关才能产生含义与价值,所以关联关系时则从数据到知识跃迁的过程.此过程需要将零散数据集聚,叫做信息加工。

可视化不同于文字,知识不是直白的说出来,而是用隐喻方式表达,综合利用颜色、大小、联动等视觉习惯让读者在不知不觉中自然感受到数据的差异和关联。

地图上不同颜色深浅代表数据值的大小,图标的大小和内容可以代表数据总量大小,和不同成分差异。

数据联动主要体现在人机交互中,随着鼠标移动数据同步变化,此外关联的栏目页随时更新当前热点区域的指标排名和三次经济普查的变化趋势,整个过程基本不依赖文字语言,读者可以直观感受到数据的变化。

良好的数据关联性分析与处理有助于厘清一份数据对于可视化是否有价值,也可以帮助我们选择合适的可视化方法。

3.扁平交互

计算机与手机屏幕是有限的,每增加一个颜色和要素都会增加进入眼睛的信息量,从而干扰对信息的传输,所以要严格控制进入用户眼睛每一个比特,避免冲淡可视化主题。

地理可视化中采取了两种方式实现数据隐藏,一种是逐级钻取,可以充分利用地域的天然的分级包含关系,使得信息不用不一下子全部展开,而是随着“省-市-县”层次逐级展示;另一种是扩展图示

将复杂的信息浓缩为简单的图标,只有读者感兴趣的时候才点击展开。

数据可视化是一个“谎言”

从某种意义上说可视化是一个“谎言”,现在不缺乏数据展示,缺乏的是数据隐藏,只有充分的数据隐藏才能有效的数据展示。这是可视化的关键。

什么叫隐藏?不是不让读者看到这个数据,而是分不同的场合、不同的时间段展示不同的数据,只有当读者需要了才展示,而不是一下子将所有数据铺开来,否则其实是对数据的滥用,也阻碍了读者获取信息。

感谢我们不屈不挠,创意无限的优秀团队,感谢你们为此熬过的多少个不眠之夜,作为你们的一员,我非常骄傲。

我们也于8月份把作品放在国家数据网站上,让全国乃至全球的读者都可以分享中国第三次全国经济普查这项人类壮举的喜悦。

这就是我们将86万数据放入一张地图的故事,总结一句话“可视化的本质是简洁”,也就是俗话说“千言万语不如一张图”

但是为什么还会出现过度表达现象呢?我想这和更爱自己还是更爱世界有关,如果一个人更希望去炫耀自己的技术和数据,那么很有可能选择复杂的可视化,如果一个人更关注传递给读者有效信息,那么他肯定会选择简洁的可视化。

所以请行动吧,审视自己的每一幅作品,每一段文字,每一张图片,大胆的剃掉不必要的部分,你会发现舍弃的越多,你将获得的会更多。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2015-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

MIT研发出脑控机器人:可使用脑波为机器人纠错

选自news.mit.edu 作者:Adam Conner-Simons 机器之心编译 参与:微胖、晏奇、吴攀 MIT 研发出的反馈系统能够让人类操作者仅通过...

35260
来自专栏大数据文摘

苹果VS谷歌,可视化两厂所有专利后看创新模式差异

22740
来自专栏专知

我是如何失败的 —— Ian Goodfellow 访谈(PhD’14, Computer Science)

19250
来自专栏Data Analysis & Viz

最全知乎专栏合集:编程、python、爬虫、数据分析、挖掘、ML、NLP、DL...

上一篇文章《爬取11088个知乎专栏,打破发现壁垒》 里提到,知乎官方没有搜素专栏的功能,于是我通过爬取几十万用户个人主页所专注的专栏从而获取到11088个知乎...

63920
来自专栏机器之心

现场直击 | 谷歌云大会最后一天解读开放性:从TensorFlow开源到开放云平台

机器之心报道 记者:CZ 当地时间 3 月 10 日,Google Cloud Next '17 在美国旧金山顺利闭幕。机器之心作为受邀媒体对这场为期 3 天...

34670
来自专栏腾讯开源的专栏

道器相融,由 Angel 谈一个优秀机器学习平台的自我修养(下)

随着人工智能时代来临,大数据平台发生了新的变化,也提出了更高的要求。Spark等大数据平台多是为通用数据处理而设计的,并非专用于机器学习任务,企业该如何更好地利...

83710
来自专栏BestSDK

机器学习:10年之前默默无声,10年之后风靡全球

一、CIO们!是时候投资机器学习了  康奈尔大学希望找到降低鲸鱼被船只撞击的几率,他们的团队正在开发一种算法,利用音频提醒船只注意鲸鱼的行踪。   达索系统...

40380
来自专栏机器之心

观点 | 人工智能搁浅了?听一听纽约大学教授Gary Marcus怎么说

选自New York Times 作者:Gray Marcus 机器之心编译 参与:路雪、黄小天 近日,Gary Marcus 在纽约时报上发表了一篇题为《Ar...

380100
来自专栏量子位

这台相机没镜头!美国教授新发明,一块玻璃可成像,拍照给计算机看

他还真造出来了。犹他大学副教授Rajesh Menon研发了一种新型相机,没有镜头,只要一块玻璃(非凸透镜)就可以实现。

9230
来自专栏怀英的自我修炼

元学习-02

本篇与上一篇一样,是XD的元认知课程的学习笔记。本篇将从技能的分类谈到面对不同的分类的时候该如何自学,接着再通过这一套自学小套路返回去推导出比技能分类更深一层的...

35990

扫码关注云+社区

领取腾讯云代金券