[独家]MIT课程笔记:数据可视化会撒谎

大数据文摘“可视化”专栏已经成立,如果您是专业人员,愿意与大家分享,请后台留言,加入我们,一起把这个平台和专栏做得更好。回复“可视化”阅读系列文章。

欢迎熟悉外语(含各种“小语种”)的朋友,加入大数据文摘翻译志愿者团队,分别回复“翻译”和“志愿者”可了解更详细信息。

作者:Linda Bi

这篇文章取材于David Karger教授讲授的Data Visualizations课程,此课程是MIT ProfessionalEducation开设的网络课程Tackling the Challenges of Big Data的一部分。文中部分图片经Karger教授本人授权,请勿转载。

上一期的可视化专栏中,我们推出了一篇文章《人类历史上最有影响力的5张信息图》,相信读过这篇文章的读者都会对下面这幅图有印象。这是排名第二的“战争死亡统计图”,作者FlorenceNightingale(南丁格尔)是一名护士,她用数据图表的方式展示了那些可预防疾病(蓝色和灰色区域)导致的惊人死亡数字,成功的说服了将军们投钱在医院和医疗设施上。

看到这幅图,相信读者都会像我一样惊叹于160年前的这位护士的智慧,但是在惊叹的同时,或许你也会像我一样有疑惑:这幅图看起来并不是那么直观明了,问题出在哪里呢?Karger教授解释说,因为南丁格尔采用了图形面积作为可视化变量来表示死亡人数,而我们的眼睛已经在某种程度上习惯于比较单一的长度或宽度,而不是面积。另外一个问题是,她把这些颜色叠放在一起,粉红色区域的下面,还有很多蓝色;而有些地方看不到任何的粉红色,因为它被盖在灰色的下面。

下面这幅图也存在同样的问题。这是1979年Time杂志在石油危机爆发时发表的一张图,用来表示1973-1979年间石油价格的变化。

这幅图的本意是用桶的高度来表示石油价格的变化,离我们最近的桶是最远的桶的5.5倍。但由于角度和阴影的关系,我们直觉上会认为桶的体积表示了价格的变化。尽管这个图上的数字是正确的,1979年石油价格是1973年的5.5倍,但是由于这幅图给我们的误导,我们会把体积变化(270倍)当成一个与价格有关的变量。

这是在创建可视化过程中容易进入的误区,也是我们应该尽量避免的。一般的规则是,尽量避免使用多维变量来代表数量。如果你想用一个可视变量代表一个数,那么只使用长度或者高度, 但不要两者同时用。

下面三张图显示的是2000年的股市崩盘。

看第一张图,我们会觉得2000年的股市崩盘是灾难性的。但是,如果我们把纵坐标范围扩大到整个股票市场的价格区间0-$10,000,这个下跌曲线看起来就平缓多了。如果我们再把横坐标的年份放大到1950-2000年,那么这个下降看起来根本就不算什么。

下面这两张图可谓恶劣之作。这两张图出现在一本杂志的封面,企图披露康奈尔大学在学校排名直线下降的同时学费持续飙升。让我们来看看真实情况是怎么回事。

首先,我们来看看排名。不要忘了,学校的排名是数字越小越好,所以图中下降的曲线实际是表明康奈尔排名上升了。另外,两幅图表示年份的横坐标使用的是不同的时间尺度。第一张图的学费数据,从1965年开始;而第二张图的排名,从1988年开始。最后,关于学费的数据也有问题。它实际上并不是图文中所说的学费,而是学费/收入比。所以,这两张照片放在一起,根本无法说明他们所说的问题。

再来看一个例子,下面这张图来自纽约时报,显示了1978年到1985年汽车燃料标准的改变。

这个图的问题是,这里用0.6英寸代表1978年的18英里/加仑,用5.3英寸代表1985年的27.5英里/加仑,并试图用透视图使它看起来更漂亮。但这样做,在视觉上大幅度放大了长度的变化。因此,我们看到的不是每加仑英里数增加了52%,而是780%。

下面的例子是Karger教授制作的关系数据可视化图。

这是对一个特殊虚拟社交网络的可视化图。从图中你会看到有几个核心人物,周围环绕一堆边缘人物。但是,这其实是一种假象。事实上,这里的数据是一个对称的圆环,也就是说任何一个人跟他周围人的关系跟其他人和周围人的关系是完全一样的。而图中的核心人物,是由于制作时把三维物体投影成两维造成的。显然,这张图会给在视觉上造成很强的欺骗性。

总的来说,可视化是一个非常强大的工具,有时候比统计数据本身更强大。这意味着它可以更好地揭示真相,但同时也可能更显著地放大错误。在可视化的过程中,要经常反问自己:这个图有没有什么不正确的暗示?要做到这一点,需要考虑:一、显示完整的坐标区间;二、显示全面的数据;三、选择适当的可视化变量。

有一本著作,名为《统计数字会撒谎》。虽然还没有人写过“可视化会撒谎“,但我相信有一天会出现这样一本书,因为这实在是一个值得探讨的话题。

【作者简介】

Linda Bi,数学专业精算方向硕士,有两年多的产品分析经验,主要职责包括产品市场研究以及产品性能分析,多年来一直关注医疗保险行业的发展,并且对数字营销分析很感兴趣。近一年来开始关注大数据行业发展,2014年11月加入大数据文摘翻译志愿者团队,除了进行选文翻译工作,也积极参与可视化专栏的策划推广活动。希望通过大数据文摘这个平台,向大家介绍相关领域的高品质文章,同时也希望和医疗保险行业的数字营销专业人士有更多的交流。有兴趣的朋友,请后台留言并留下微信号,谢谢!

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2015-02-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲...

52030
来自专栏量子位

最近有啥ML比赛能表现自己的优秀?CVPR2018图像压缩大赛

原作 Michele Covell Root 编译自 谷歌博客 量子位 出品 | 公众号 QbitAI 新的一年来了,想给自己找个难度大的挑战?有哪些问题是有重...

31670
来自专栏新智元

【重磅】吴恩达率百度大脑完胜“最强大脑”王峰,AI技术解密

【新智元导读】人工智能又一次战胜了人类!这次是在《最强大脑》。吴恩达率队的百度人工智能在人脸识别跨年龄识别任务中以 3:2 的比分惊险击败《最强大脑》名人堂轮值...

39860
来自专栏AI科技评论

视频 | 棋类大战中惨败的人类,现在想要在电子游戏上扳回一局

喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arxiv Insights 每周精选,从技术视角出发,带你轻松深度学习。 本期 Arxiv ...

38060
来自专栏新智元

【机器学习圈子里的裙带关系】学术“朋友圈”罪与罚

来源:Reddit 作者:闻菲 【新智元导读】或许你以为搞学术做研究可以不受世俗干扰,殊不知有人在的地方就有江湖。在学术圈,跟对人或许跟做好事情一样重要...

32470
来自专栏新智元

红色预警尚未结束,北京启用机器学习预测空气污染

【新智元导读】今年冬天北京启用雾霾预警系统,将传统的大气化学物理模型与机器学习相结合,力求在更短的时间内做出更精确的预测。12月16日启动的今年首次空气重污染红...

39850
来自专栏AI研习社

如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法?

不抖机灵,想从接触过机器学习学术圈但已投身工业界的角度来回答。 我认为:大部分机器学习从业者不需要过度的把时间精力放在数学上,而该用于熟悉不同算法的应用场景和掌...

387100
来自专栏AI科技评论

犹他大学计算机系终身教授承恒达:人工智能中不确定性的研究 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了...

12210
来自专栏新智元

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授获终身成就奖

【新智元导读】计算语言学顶会 ACL 2017 刚刚公布了最佳论文和终身成就奖。本年度最佳长论文被授予了霍普金斯大学使用概率方法研究语言类型学的文章。最佳短论文...

40150
来自专栏机器之心

现场 | CVPR 2018第一天:精彩的Workshop与被中国团队进击的挑战赛

前伯克利 CS 系主任 Jitendra Malik:研究 SLAM 需要结合几何和语义

7910

扫码关注云+社区

领取腾讯云代金券