[译]数据会骗人?帮你能看懂图表的误导!

大数据文摘“可视化”专栏已经成立,如果您是专业人员,愿意与大家分享,请后台留言,加入我们,一起把这个平台和专栏做得更好。回复“可视化”阅读系列文章。

大数据文摘翻译作品

翻译:高航,郭芳菲,于婷婷

校对:康欣

如需转载,后台留言申请授权

欢迎熟悉外语(含各种“小语种”)的朋友,加入大数据文摘翻译志愿者团队,分别回复“翻译”和“志愿者”可了解更详细信息。

我们看到过各种图表,其中最常见的就是曲线图。你可能觉得它没有什么难理解的,很容易看明白。甚至,你自己也做过各种漂亮的曲线图。但是,如果处理不得当(或被精心处理过),会造成很大的误导。

记得我小时候读到一期《疯狂杂志》,里面有一则关于统计学的搞笑漫画。它讲了一个剧院老板是怎么通过设计含有误导数据的广告来说服毫无戒备之心的观众来观影。

漫画的第一幅图里,剧院经理在一则广告中声称“上周电影票房翻倍”。第二幅图画出了真实情况:第一周只有两个人来观影,第二周只有四人,还有一个人正在退场。

然而,多年来我仍看到媒体一直在发布这种误导信息。最常见的做法是,文章里的图表被巧妙的处理过,以用来支持作者自己想要表达的结论。或者,有些图表没被那么别有用心地设计过,只是作者不懂该如何准确呈现数据并得出结论。

我将选择彭博新闻社为例子,没有其它原因,只因为它是我最近遇到的。毕竟彭博新闻社是做财经新闻的,他们本应在统计数据上做的更好。但是,他们也犯一些误导错误,

例如这篇Mark Gimein写的文章 “美国男性:四十年的收入下降“。Mark Gimein是彭博网的公司和市场板块的编辑,以及Market Now 博客和时事通讯的领衔作者。听起来是个很聪明的人,对吧?不幸地是,他也犯了我在无数其它出版物里看到的同样错误。

在他写的文章里,他用了美国人口普查局的数据来说明:在过去三十年中,美国男性收入的中值(考虑了通货膨胀)不断地在下降。看下这张他用来证明自己观点的图表:

你能从上面的图表中得出什么结论呢?它看起来相当严峻,对吧?看看那直线的斜率!我们得多么忧心啊!

也许担心还为时过早,因为这张图表有几个问题。为了说明这些,我已经用同样的数据画了几个新版本,让我们一起来看一看。

数据点不足

在原始的图表中,作者对于每个年龄组仅选取了两个数据点。试想,如果在那30年间的某一年有一个尖峰?又或者,如果那个下降仅在过去的几年才开始?再或者,如果1972年和2012年是异常值并且扭曲了数据的趋势?

让我们回顾一下美国人口普查数据,并将1972年到2012年的数据都加进来,以得到更高的分辨率。我们得到如下结果:

增加数据分辨率后的结果

这与原图看起来有所不同,不是吗?现在我们分析一下45到54这一年龄组的人。我们会立即看到,他们收入的中位数在1972到1999年间是相对稳定的,这与作者直白的结论完全相反。如果仅从这一系列数据选取两个数据点(即1972和1999),实际上得到的结论是这一年龄段人群收入的中位数一直保持稳定。但是,原来的图表对这一事实有一定的误导。当我们观察整段的数据后发现,事实上45到54这一年龄段的人群收入是有所下降,但是这种下降的趋势到2000年就停止了。

对于其它年龄群而言,他们收入的下降更加平稳,但是25到34这一年龄段的人群收入在克林顿执政时期有所反弹。

从这个图表中我们可以得到的另一个结论是,男性收入的中位数的不稳定取决于哪个政党执政。除了里根执政期间,当美国共和党执政期间收入都会下降;相反,除了奥巴马执政期间(基于现有数据得出这个结论尚为时过早),当民主党执政时收入都会上升。彭博社的分析没有考虑这些因素中的任何一个。

让我们继续探讨下一个由于图表引发的误导。

被截断的图表

作者原图的第二个问题是,图表的Y轴并不是从0开始的。这有什么问题呢?一个Y轴被截断(不是从0开始)的图表,会放大变化趋势。让我们看看重新使用原始数据并把Y轴的起始值设置为0会得到什么结果。

Y轴未被截断的图表

现在你得到什么结论?根据这幅图表,你会认为男性的收入在40年内持续下降?也许是的。这幅图表清楚地显示了收入的下降趋势,并且是收入的整体下降。但是,相比起彭博社的原始图表,下降的斜率并不显著。

根据这张新图表,我们还可以得出一些其它的结论。1972年到1993年间,25岁到34岁这一年龄段的收入持续稳定地降低;接着,在克林顿执政期间有所上升;然后,在布什执政期间又开始降低。为什么会这样呢?

对于35岁到44岁的人来说,他们的收入从1972年就稳定降低。对于45到54岁的人来说,收入在2000年以前相对稳定,并从2000年开始就稳定降低。

即便我们使用彭博社的两点数据,而将Y轴的起始值设置为0,其变化也并没有非常剧烈。

显示整个Y轴的原两点图

这仍然是一个可怕的图表。但一眼看去,使用同样的数据,图中收入的趋势似乎比彭博社的图显示的趋于平缓。

比例

我要讨论的最后一个问题是“比例”。作者选择去展现过去三十年的数据。那么问题在哪呢?实际上还有其它25年的数据被省略了。

这意味着,如果1972年和2012年的数据都是异常值的话,彭博社的原始图表会发生很大的失真。事实证明,1972年是美国男性收入中位数的最高点,从这个意义下,它确实是一个异常值。

让我们看一下从1947年开始的完整的统计数据:

从1947年开始的所有统计数据

令人惊奇的是,从1947到1972年的平均收入呈现平稳地逐年增长。

那么,1972年发生了什么? 布雷顿森林体系和金本位制的结束?我不是一个经济学家,所以就不费劲猜测了。但是,我正给大家展示完整的数据,证明操作这些数字去支持不同的“事实”是多么简单,而这些事实可能描述了完故事,也可能不是。

现在,这些数据描绘出了一个非常不同的情景。可以看到,在战后如干年数值陡涨,随后就是平台期和下降期,对于各个年龄层来说其对应的时间和比率有所不同。这个时期发生了什么?又是什么引起这些变化?这里很难给出一个宽泛的概括。

同样值得关注的,是25-34这个年龄层的收入差异开始增大,这有可能与服务行业和白领工作的增长有关。

给出一个极端的观点:如果我们想把标题写成“美国男性收入在过去的65年持续上涨”。我们可以用只有两个点的图形来支持这个观点,就像彭博社的图表。我们只需用1947和2012这两个点:

两个数据点可以告诉我们的关于1947年和2012年之间工资的变化

看起来非常棒!让我们鼓励一下自己(Let’s pat ourselves on the back)。世界如此美好,万物如此美好。

除了彭博社,我还在的其它很多出版物中看到这类图表,并且他们也不是唯一犯这种错误的。我写这篇文章不是为了特别针对他们,更多的是为了证明:操作数据来描述一个事件来佐证你已存在的观点是非常容易的。

类似的,匮于分析及不完整展示的数据会误导人们得到错误的结论。我已经试图在这里证明了两种情况,当你再看到像链接中彭博社那样的文章,你会更加警惕;并且,当你在利用数据讲故事是,你也会更加谨慎。

来自:https://medium.com/i-data/misleading-with-statistics-c63780efa928

欢迎读者参与分享类似的误导或唬弄实例。提供曾看过好像“怪怪”的图表。

【译者简介】

说明:有意联系译者的朋友,请给“大数据文摘”后台留言,附自我介绍及微信ID,谢谢。

高航:加拿大约克大学计算机视觉研究生。爱统计,爱视觉,爱大数据。

于婷婷:统计研究生在读,爱好编程和数据分析。现任统计学院研究助理,主要通过R语言和xml实现可视化分析网页。对大数据技术和发展很感兴趣,也希望将来可以在这个行业发展。目前在美国生活读书,希望能与有共同兴趣的朋友沟通交流,和大家一同进步。(2015年5月研究生毕业,有相关工作机会提供的小伙伴可以私信后台啊)

康欣:博士,多年从事图像及数据处理和分析、计算机视觉、模式识别、机器学习、增强现实等领域的技术研究和创新应用,现为西门子中国研究院高级研究员。愿借此平台,与大数据分析的爱好者以及专家学者交流。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2015-02-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序你好

机器学习等新技术正在重塑工厂的工作方式

在过去的三十年里,工厂经历了翻天覆地的变化。80年代和90年代,工业自动化和机器人走在了前列。在过去的十年里,多种改变游戏规则的技术正在重塑工厂。机器学习、物联...

1413
来自专栏大数据文摘

学界 | 离开实验室的材料科学:AI正将新材料的发现过程提速200倍

1904
来自专栏AI科技评论

Facebook和Google们现在努力的AI方向,会不会错了?

深度学习的坎坷之路 2012年11月23日,应该是一个让时任谷歌人工智能实验室专家的Geoff Hinton倍感欣慰的日子,在这一天,纽约时报发布了名为《Sci...

3846
来自专栏量子位

萌新误入AI歧途怎么办?MIT博士小哥哥给你指条明路

做研究,特别是在AI领域做研究,时常挑战人类的智力极限和心理极限。来自MIT的汤姆,入坑已有两年,并在坑里向广大准同行们发来了倾心打造的攻略,帮助大家在漫漫夜路...

1183
来自专栏大数据文摘

TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据

2384
来自专栏计算机视觉战队

人证核验系统解决方案

方案概述 随着各地平安城市建设的积极深入和依法治国战略方针的全面推进,中共中央办公厅、国务院办公厅于2015年印发了《关于加强社会治安防控体系建设的意见》。意...

7267
来自专栏PPV课数据科学社区

周一经典 | 如何成为一名数据科学家?

如何成为一名数据科学家? 文 | 谢科 "Data Science = statistics who uses python and lives in San ...

3665
来自专栏PPV课数据科学社区

【案例】浅谈医学大数据是怎么回事?

编者按:本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理...

3143
来自专栏机器之心

前沿 | 面向光量子计算:MIT新研究实现室温下单光子非线性

选自MIT News 作者:Larry Hardesty 机器之心编译 参与:Smith、李泽南、吴攀 看起来,MIT 最近在光计算上取得了不少的成果。前两天,...

3596
来自专栏VRPinea

高通更新Spectra Module摄像头,用以优化VR/AR应用

3416

扫码关注云+社区

领取腾讯云代金券