前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[独家]MIT课程笔记:数据可视化会撒谎

[独家]MIT课程笔记:数据可视化会撒谎

作者头像
大数据文摘
发布2018-05-21 11:23:29
5400
发布2018-05-21 11:23:29
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘“可视化”专栏已经成立,如果您是专业人员,愿意与大家分享,请后台留言,加入我们,一起把这个平台和专栏做得更好。回复“可视化”阅读系列文章。

欢迎熟悉外语(含各种“小语种”)的朋友,加入大数据文摘翻译志愿者团队,分别回复“翻译”和“志愿者”可了解更详细信息。

作者:Linda Bi

这篇文章取材于David Karger教授讲授的Data Visualizations课程,此课程是MIT ProfessionalEducation开设的网络课程Tackling the Challenges of Big Data的一部分。文中部分图片经Karger教授本人授权,请勿转载。

上一期的可视化专栏中,我们推出了一篇文章《人类历史上最有影响力的5张信息图》,相信读过这篇文章的读者都会对下面这幅图有印象。这是排名第二的“战争死亡统计图”,作者FlorenceNightingale(南丁格尔)是一名护士,她用数据图表的方式展示了那些可预防疾病(蓝色和灰色区域)导致的惊人死亡数字,成功的说服了将军们投钱在医院和医疗设施上。

看到这幅图,相信读者都会像我一样惊叹于160年前的这位护士的智慧,但是在惊叹的同时,或许你也会像我一样有疑惑:这幅图看起来并不是那么直观明了,问题出在哪里呢?Karger教授解释说,因为南丁格尔采用了图形面积作为可视化变量来表示死亡人数,而我们的眼睛已经在某种程度上习惯于比较单一的长度或宽度,而不是面积。另外一个问题是,她把这些颜色叠放在一起,粉红色区域的下面,还有很多蓝色;而有些地方看不到任何的粉红色,因为它被盖在灰色的下面。

下面这幅图也存在同样的问题。这是1979年Time杂志在石油危机爆发时发表的一张图,用来表示1973-1979年间石油价格的变化。

这幅图的本意是用桶的高度来表示石油价格的变化,离我们最近的桶是最远的桶的5.5倍。但由于角度和阴影的关系,我们直觉上会认为桶的体积表示了价格的变化。尽管这个图上的数字是正确的,1979年石油价格是1973年的5.5倍,但是由于这幅图给我们的误导,我们会把体积变化(270倍)当成一个与价格有关的变量。

这是在创建可视化过程中容易进入的误区,也是我们应该尽量避免的。一般的规则是,尽量避免使用多维变量来代表数量。如果你想用一个可视变量代表一个数,那么只使用长度或者高度, 但不要两者同时用。

下面三张图显示的是2000年的股市崩盘。

看第一张图,我们会觉得2000年的股市崩盘是灾难性的。但是,如果我们把纵坐标范围扩大到整个股票市场的价格区间0-$10,000,这个下跌曲线看起来就平缓多了。如果我们再把横坐标的年份放大到1950-2000年,那么这个下降看起来根本就不算什么。

下面这两张图可谓恶劣之作。这两张图出现在一本杂志的封面,企图披露康奈尔大学在学校排名直线下降的同时学费持续飙升。让我们来看看真实情况是怎么回事。

首先,我们来看看排名。不要忘了,学校的排名是数字越小越好,所以图中下降的曲线实际是表明康奈尔排名上升了。另外,两幅图表示年份的横坐标使用的是不同的时间尺度。第一张图的学费数据,从1965年开始;而第二张图的排名,从1988年开始。最后,关于学费的数据也有问题。它实际上并不是图文中所说的学费,而是学费/收入比。所以,这两张照片放在一起,根本无法说明他们所说的问题。

再来看一个例子,下面这张图来自纽约时报,显示了1978年到1985年汽车燃料标准的改变。

这个图的问题是,这里用0.6英寸代表1978年的18英里/加仑,用5.3英寸代表1985年的27.5英里/加仑,并试图用透视图使它看起来更漂亮。但这样做,在视觉上大幅度放大了长度的变化。因此,我们看到的不是每加仑英里数增加了52%,而是780%。

下面的例子是Karger教授制作的关系数据可视化图。

这是对一个特殊虚拟社交网络的可视化图。从图中你会看到有几个核心人物,周围环绕一堆边缘人物。但是,这其实是一种假象。事实上,这里的数据是一个对称的圆环,也就是说任何一个人跟他周围人的关系跟其他人和周围人的关系是完全一样的。而图中的核心人物,是由于制作时把三维物体投影成两维造成的。显然,这张图会给在视觉上造成很强的欺骗性。

总的来说,可视化是一个非常强大的工具,有时候比统计数据本身更强大。这意味着它可以更好地揭示真相,但同时也可能更显著地放大错误。在可视化的过程中,要经常反问自己:这个图有没有什么不正确的暗示?要做到这一点,需要考虑:一、显示完整的坐标区间;二、显示全面的数据;三、选择适当的可视化变量。

有一本著作,名为《统计数字会撒谎》。虽然还没有人写过“可视化会撒谎“,但我相信有一天会出现这样一本书,因为这实在是一个值得探讨的话题。

【作者简介】

Linda Bi,数学专业精算方向硕士,有两年多的产品分析经验,主要职责包括产品市场研究以及产品性能分析,多年来一直关注医疗保险行业的发展,并且对数字营销分析很感兴趣。近一年来开始关注大数据行业发展,2014年11月加入大数据文摘翻译志愿者团队,除了进行选文翻译工作,也积极参与可视化专栏的策划推广活动。希望通过大数据文摘这个平台,向大家介绍相关领域的高品质文章,同时也希望和医疗保险行业的数字营销专业人士有更多的交流。有兴趣的朋友,请后台留言并留下微信号,谢谢!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档