首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

5个技巧玩转数据差异可视化——刻意使用视觉编码实现对比

翻译:小译7号

审校:张洪

编辑:Queen

原文地址:

可视化意味着对数据进行相似性比较和差异对比,通过这种方式你可以看到模式、获得洞见。 然而,如果我们专注于发现或呈现差异,一些方法会比其他的方法更有帮助。 在本指南中,我描述了五种方法实现数据差异化。

1.直观可视化

不需要特别考虑数据中的差异,像你平常一样去做数据可视化。这是一种“让数据说话”的方式,这种方式自有其特点与难点,但它允许读者自己做出结论(因为它迫使他们这样做)。或者,你可以提供注释给读者指出方向(理解数据),这通常是图形化演示的最佳选择。

例子

Mona Chalabi 经常在她的数据草图( Data Sketches )中使用这种直接的比较,然后使用图形和实际存在的物体,运用相关的比喻(或者类比)来进一步阐释她的观点(说明数据的不同之处)。 例如,下面的草图对比了空腹和饱腹时的膀胱和胃的大小:

在分析美国各州的数据中,我们也经常看到这种方式的应用。试着根据数据的一个属性进行排序,以便快速比较。在下面的图表中,你可以很快地看到人口最多的州、最小的州以及两者之间的地区在人口构成的差异(各个种族的比例、是否出生在该州或者是否出生在美国的人口比例)。

2.差异化视觉编码

嘿,我们正在讨论如何可视化差异。 如果这就是你即将要做的,用差异化视觉编码明确呈现(数据的)不同之处是一个不错的想法。

我们所选取的视觉编码(元素)也许是一个颜色的深浅,用它来表示数据间大于,小于关系;也许是坐标系中的正负坐标轴。无论是什么,我们都应该以一种直观的方式对数据进行编码,从而区分数据中的不同之处。

例子

在比较老年人和年轻人时,我使用了堆叠面积图,但是为了强调区别,我把老人的百分比值放在顶部,年轻人的百分比值放在底部。

同样,我们经常对比男性和女性的数据。 为 The Pudding 网站工作的朱莉娅 · 西尔格用如下的可视化方案展示了电影剧本中屏幕方向所呈现的性别差异(在电影或者视频剪辑时需要从观众或者屏幕角度出发,对于电影所呈现的画面进行剪辑)。

或者,你也可以用电影剪辑中以男性为主导的屏幕方向所占的百分比来呈现相关概率,在这种情况下,女性所占屏幕方向的百分比可以(根据男性的百分比)推测出来。 但是,这会将注意力集中在某一个性别上。有些算法允许在简单的条形图中使用相同的视觉权重。

为了将全国各地的酒吧数量与杂货店数量进行对比,我使用了一种类似的方法,只是(在这个例子中)我主要运用颜色深浅来呈现数据的差异。

3.分类

把所有的数据都压缩到单一的可视化方案中是一个很诱人的想法。 有时候,在一个视图中,一个图形如果运用大量的线条、点和颜色,这样看起来会令人更加印象深刻。但它也可能看起来很杂乱。如果一张图上的东西太多,除了一张漂亮的照片,你不会从观察过程中得到任何东西。

因此,当你的数据中包含多个人,一些地方或事物,(将它们)分隔或者分类可能会获得更好的视觉效果。(分隔或者分类)也许可以通过组合呈现多个小图的方式来实现(参见 http://flowingdata.com/charttype/small-multiples/ ),也许可以通过并列比较的方式来呈现。

例子

我真的很喜欢分布图,我十分喜欢纵向比较:

为了更紧凑的表现,试着使用多幅小图的方式。 FiveThirtyEight 用它们来显示总统的支持率:

4.只展示不同之处

如果不需要显示所有的数据——这是一个常见的情况——过滤下来感兴趣的数据,然后只显示这一部分。 这可能意味着简单地设置子群体,或者意味着某种统计聚类或标识符。

不管怎样,这更像是一个统计步骤,而不是一个(可视化)设计建议,但这也是为什么数据分析和数据图形化应该紧密结合的原因。它们互相借鉴。

例子

当我查看美国历史上最时髦的名字时,我首先根据年度使用情况将名字分类为时髦名字,然后只展示了最有趣的部分。

在寻找某个地区最常见的名字和大多数男女通用名字时,我也是这样做的。 (我当时正好有一个即将到来的孩子,所以那时候我真的对名字非常感兴趣。) 在所有这些例子中,名字的统计唯一性就是差异,而那些趋近于平均值的名字则被过滤掉。

5.动画对比

动画有时候是一个棘手的野兽,但是如果小心使用,这个方法提供了一个直观的视角,向读者展示(我们关注的)单元如何变换的。

在可视化差异的情况下,图形可以在一个阶段或状态开始,然后动画可以显示它如何移动到一个不同的阶段。

例子

在可视化收入变化时,我使用了 beeswarm 图来显示不同年份的分布情况。 最初的图开始于 1960 年,当一个读者选择一个不同的年份时,图中的点会移动以显示一个新的分布。

如上所述,移动范围越大时间越长,选定年份之间的差异就越大。

在显示不同人群在既定特征上所占据的百分比时,我使用了类似的视觉提示。同样的,差别越大,图形从一个阶段过渡到下一个阶段的时间就越长。

6.总结

回顾一下,五种可视化差异的方法:

简单可视化—— 让读者来理解或者让作者使用注释来指导(读者理解)

差异化的视觉编码—— 使用几何元素来凸显差异

分类—— 不要把所有东西挤在一起,而是把东西分开进行并排比较

过滤—— 将差异放在前面,其余部分放在远处的背景

动画—— 以运动为视觉线索

无论你选择什么方法,关键是要特别关注差异。 所以,比起整体可视化你的数据,你还需要可视化数据的各个方面,这才是最重要的。

相关资料

Visualizing Outliers:https://flowingdata.com/2018/03/07/visualizing-outliers/

Visualizing Incomplete and Missing Data:https://flowingdata.com/2018/01/30/visualizing-incomplete-and-missing-data/

Visualizing algorithms:https://flowingdata.com/2014/06/30/visualizing-algorithms/

关注集智AI学园公众号

获取更多更有趣的AI教程吧!

搜索微信公众号:swarmAI

学园网站:campus.swarma.org

商务合作|zhangqian@swarma.org

投稿转载|wangjiannan@swarma.org

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180519G1FPVB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券