遇见大数据可视化 :图表设计 ( 一 )

By visualizing information, we turn it into a landscape that you can explore with your eyes, a sort of information map. And when you’re lost in information, an information map is kind of useful.通过可视化信息,我们可以绘制出一道眼睛可以看到的蓝图,一种信息地图。当你迷失在信息中时,信息地图就有作用了。——David McCandless(大卫·麦克坎德莱斯)

David McCandless在TED演讲《The beauty of data visualization》中给我们讲述了数据可视化的意义和美丽之处,在大数据迅速发展的时代,研究数据可视化的价值显而易见。本篇文章主要对数据可视化中的基本元素——基础图表进行相关探索。

数据的视觉表达方式

人们感知信息中约83%是通过眼睛获得,视觉化信息成为最重要的信息之一,也是最容易被处理并记住的。数据可视化是关于数据的视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量【1】。简言之,数据可视化的目的是让数据说话,让复杂抽象的数据以视觉的形式更准确快速的传达。

【1】注释:Michael Friendly(2008). "Milestones in the history of thematic cartography, statistical graphics, and data visualization".

如上图(图例一),可视化展示让数据更清晰直观的呈现出来。基础图表是数据可视化的一个基本、重要的视觉化表达方式。图表之所以重要,在于它对数据信息的有效提炼、梳理、传达的功能价值。图表能对枯燥、复杂的数据,根据传达目的,提炼成更简洁、直观的视觉信息。

图表发展史

早在几个世纪前就已出现数据可视化的表现方式,其中公元前550年希腊哲学家Anaximander创造了第一个出版的世界地图。

https://geekydementia.wordpress.com/2014/11/26/who-published-the-first-map/

第一个图表则始于公元950年的欧洲,被认为是最早的基于时间变化的折线图,展示太阳、月亮等行星的位置变化趋势。

http://www.fi.uu.nl/wiskrant/artikelen/hist_grafieken/begin/images/planeten.gif

公元1350年法国人尼科尔·奥雷斯米(Nicole Oresme)在出版物 《The Latitude of Forms》中发明了第一个柱状图,展示加速对象与时间速度的关系,使用图表直观的展示变量之间的关系。

https://en.wikipedia.org/wiki/HowardG.Funkhouser#/media/File:Oresmesdiagrams.gif

威廉·普莱菲尔(William Playfair)被称为图表设计之父,条形图、饼图、折线图等都是他发明的,在1786年出版的《商业和政治图解》中的条形图也被看成图表中的里程碑,在许多数据可视化研究中都有用到这幅条形图。

https://en.wikipedia.org/wiki/File:PlayfairBarchart.gif

随着时间的流逝,图表发展到现在,在《华尔街日报》、《纽约时报》、《商业周刊》等商业杂志应用最为优秀。我们也对图表类型有一定的认知度,像展示百分比的圆饼图、体现趋势变化的折线图、对比数据的柱状图等。不管在商业中,还是日常工作汇报中,图表都体现了它的价值。好的图表能用简单的视觉元素,清晰快速的传达复杂的数据信息。

更多数据可视化发展史:http://www.datavis.ca/milestones/

图表设计过程

图表设计的目的是通过图表的视觉表现形式,直观、清晰、准确的展示已知多数据或单数据的联系。首先要获得已知数据,对其进行整理分析筛选,找到想要了解的内容,确定该数据之间的关系,选择视觉表现形式,最后输出想要的图表。

可以看到图表设计过程可分为数据处理层面和视觉展示层面。数据处理:获取数据、整理数据、清洗分析数据。数据源有Excel、CSV、Acess、SQL数据库、Hadoop、HDFS、Spark、API等,数据处理层面腾讯云都有大数据相关工具。视觉展示:确定数据关系、选择图表形式、输出图表展示。确定数据之间的关系,关系有对比、构成、分布、关联,比如(例图一)可知道三个产品的销量变化是对比关系,最后选用折线图的展示方式。

图表分类和选择

图表的主要分类有柱状图、条形图、折线图、饼图、圆环图、面积图、散点图、气泡图、雷达图、曲面图等。下图为数据可视化专家Abela发布的图表建议导图。图表选择方式通过数据关系的四个方面来区分:对比、构成、分布、关联,再根据变量、类别、时间关系来选择图表。

http://extremepresentation.typepad.com/.a/6a00d8341bfd2e53ef01b7c736487a970b-pi

对比

对比型的图表可以展示多个数据之间的相同和不同之处,也可以展示单个数据在时间上的变化趋势,是基于时间或分类的维度来进行对比,通过图形的颜色、长度、宽度、位置、角度、面积等视觉变量来对比数据。典型的对比类图表有柱状图、条形图、折线图、雷达图。

下图为《华尔街日报》15年全球股市前十排行。各国间的股市市值是一种对比关系,选用条形图的方式让数字信息展示的更为清晰直观。

http://graphics.wsj.com/gallery/china-market-explainer

构成

构成顾名思义在同一维度的结构、组成、占比关系,可以是静态的,也可以是随时间变化的。最典型的构成型图表就是饼图、环状图,还有百分比堆积柱状图、条形图、面积图。

下图为2016年ComScore统计的流行电视设备销量占比。构成关系的数据通常会采用圆形图,通过圆弧长度面积大小来区分数据之间的构成情况。

http://www.idownloadblog.com/2016/07/28/wsj-apple-media-tactics-alienates-cable-providers/

分布

分布型图表通常用于展示连续数据的分布情况,通过图形的颜色、大小、位置、长度的连续变化来展示数据的关系。散点图、直方图、正态分布图、曲面图表现方式都能体现数据的分布关系。

例图是一个正态分布图,被称为“IQ Scale Bell-Curve”,它显示IQ从小于60到大于140的范围人数的分布情况。在智商规模从60到100的情况下,人数呈现递增分布,最高人数达到100后,随着IQ递增人数开始下降,很小一部分达到了超过140的智商。可知世界目前的平均智商是100,标准偏差为15。

https://commons.wikimedia.org/wiki/File:IQ_curve.svg

关联

关联型图表用于展示数据之间存在的关系。散点图、气泡图主要通过图形的颜色、位置、大小的变化关系来展示数据的关联性。

《纽约时报》的文章推广与浏览量关系的可视化展示,采用气泡图的表现方式,直观的展示了文章放在首页与否的浏览情况。气泡图中数据以圆泡的形式展示在X轴、Y轴构成的直角坐标系上,使用气泡的大小、密度来代表强度,颜色来区分分类,通过这些视觉方式清晰的呈现了数据间的影响程度。从而快速的找到最合适的推广方式。

https://source.opennews.org/articles/promotion-pageviews/

图表的基本构成元素如图:标题(副标题)、图例、网格线、数据列、数据标签、坐标轴(X、Y)、X轴标签、Y轴标签、辅助信息。根据结构的不同会相对增加或减少一些元素,饼图只需要标题、数据列、数据标签就能把数据呈现的清楚。点、线、面是数据列基本视觉元素。

图表层次:文字信息、图表视觉图形、坐标系网格。

小结

本文主要对数据可视化的基本元素图表进行了基础研究,主要阐述了图表基础介绍、图表发展史、图表设计过程、图表的分类、图表选择方法以及图表的视觉元素和层次。

那怎样的视觉元素结合能产出好的图表?好的图表应该具备哪些条件?图表的设计原则、设计误区又是什么?图表设计(二)将进行详细阐述。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

2 条评论
登录 后参与评论

相关文章

来自专栏华章科技

科普:大数据、人工智能、机器学习与深度学习都是什么?有什么关系?

导读:大数据、人工智能是目前大家谈论比较多的话题,它们的应用也越来越广泛、与我们的生活关系也越来越密切,影响也越来越深远,其中很多已进入寻常百姓家,如无人机、网...

1061
来自专栏腾讯云技术沙龙

叶聪:朋友圈背后的计算机视觉技术与应用

AI要走进千家万户,融入整个社会,而不仅仅是曲高和寡的模型。所以现在非常讲究AI场景化,使它成为与产业相关的部分。

2063
来自专栏PPV课数据科学社区

【推荐】三个你在书中无法学到的数据分析知识

在大数据特别热门的今天,出现了各种培训课程。但我发现这些课程的重点都放在算法的学习上。如何理解logistic回归或深度学习的确很酷,但一旦你开始处理数据,你会...

3114
来自专栏ATYUN订阅号

【深度学习】伯克利人工智能新研究:通过最大熵强化学习来学习各种技能

深度强化学习(Deep reinforcement learning)在许多任务中都能获得成功。标准深度强化学习算法的目标是掌握一种解决给定任务的单一方法。因此...

2956
来自专栏腾讯社交用户体验设计

数据图表设计(一)--遇见大数据可视化系列文章之五

1254
来自专栏PPV课数据科学社区

深度学习带你抠像表演

前情 回顾这些年机器学习的进展,我也一直想弄点真正的机器学习产品。 几个月前,我参加了超棒的Fast.ai深度学习课程之后,我好像就开窍了,我也有了机会:得益于...

2996
来自专栏轮子工厂

如何入门计算机视觉,10条你不能不看的总结

目前,人工智能,机器学习,深度学习,计算机视觉等已经成为新时代的风向标。这篇文章主要介绍了下面几点: 第一点,如果说你要入门计算机视觉,需要了解哪一些基础知识...

731
来自专栏AI科技评论

前沿 | IBM发明世界首个人造神经元,离人脑模拟更近一步

受人类大脑运行方式的启发,IBM苏黎世研究中心制成了世界上第一个人造纳米级的随机相变神经元。并在其基础上构建了由500个该神经元组成的阵列,让该阵列模拟人类大脑...

2688
来自专栏AI研习社

F8 2017 | 技术负责人为你解析 Facebook 神经机器翻译

编者按:该讲座主题为 Facebook 机器翻译的两代架构以及技术挑战。 在昨日的 F8 会场,该讲座吸引了众多开发者到场,主讲者是 Facebook 语言翻译...

33311
来自专栏CSDN技术头条

深度学习入门之工具综述

【摘要】本文评估了当前热门的深度学习工具,对于想进行深度学习开发的团队来说,可以参考一二。以下为译文: 在硅谷数据科学公司里,我们的研发团队调研了从图像识别到语...

2066

扫码关注云+社区