前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >特朗普:一个善于利用统计陷阱的竞选鬼才 | Alfred数据室

特朗普:一个善于利用统计陷阱的竞选鬼才 | Alfred数据室

作者头像
Alfred数据室
发布2020-07-14 16:52:13
2850
发布2020-07-14 16:52:13
举报
6月下旬以来,美国新型冠状病毒每日新增确诊病例在经历了之前一个多月的平稳期之后突然上升,并且屡屡突破之前的单日新增最高值39096例(4月24日)。7月1日开始更是多日突破日增5万大关,7月3日新增确诊病例达历史高值58910例。[1]

为此,美国媒体近日做了大量的报道。这显然影响到了特朗普的复工复学计划,也就影响到了他竞选总统的选情。

在美国移民局出台新规要求在美留学生若只上网课或被要求离境、美国政府向国会递交退出世卫组织通知的同时,特朗普连发多条推文,用他的统计数据展示他“非凡”的抗疫成果

【新冠病毒确诊病例上升(因为大量检测),死亡人数缓步下降。假新闻媒体应该给报道报道这个啊,并且新增岗位数正在创纪录!】

【在目前我们伟大的检测计划继续领跑世界的时候,新冠病毒死亡数下降了39%。为什么那些假新闻媒体不报道死亡数下降了那么多呢?因为这些媒体都是货真价实的假新闻!】

【重磅新闻:美国新冠病毒病死率几乎是世界最低!并且,美国的死亡人数大幅下降,比最高峰时下降了10倍(还有,我们的经济正强势回归!)。】

【为什么那些假新闻媒体拒绝报道我们的新冠病毒死亡数已经下降了39%,并且我们现在的病死率是世界最低的?因为它们见不得我们为这个国家做得那么好!】

【“美国新冠病毒病死率从高处急速下降”,病死率下降了十倍。我们的病死率是世界最低的。那些假新闻应该报道这些更重要的事实,但是他们没有!】

看完之后去对比美国的新冠疫情相关数据,会有一种“他说得好像还真挺有道理”的错觉。这里我们不得不佩服特朗普真是一个虽不懂统计学,但却十分善于利用统计陷阱的统计学鬼才。

为什么这么说呢?今天Alfred就带大家看看特朗普推文中隐藏的统计陷阱。

陷阱一、相关不等于因果

特朗普推文中说:因为大量检测,所以美国最近的新冠病毒确诊数才上升到5万多的。

咋一听好像很有道理,检测的人数越多,当然确诊的人数就越多呀,要是检测量少的话,确实也没有那么多确诊病例嘛。殊不知这正是一个常见的统计陷阱:相关不等于因果。

检测人数与确诊人数具有明显的正相关,但并不能认为检测数上升是确诊数上升的原因。就像不能因为城市里的警察数量跟犯罪案件发生数是正相关,就说是因为警察越多导致了犯罪案件数量越多一样。也不能因为消防出勤数跟火灾发生数是正相关,就说是因为出勤数越多导致了火灾发生数越多一样。

在统计学中,因果关系从属于相关关系,但判定相关关系是否为因果关系时,需要考虑以下几点[2]:

▲ 1. 纯属巧合:正如红楼梦第六回题目写道,刘姥姥一进荣国府,贾宝玉初试云雨情,这纯属巧合;

▲ 2. 存在混杂因素:蝉叫得越响,屋子里越觉得热。并不是蝉的叫声大导致屋子里气温升高;

▲ 3. 反向因果关系:正如警察数量跟犯罪案件发生数一样,并非是因为警察数量多导致犯罪案件发生数升高,而是犯罪案件发生数升高所以需要更多的警察。

在这里也是一样的,正是因为潜在感染人数增多,所以需要更多的检测,而不是因为加大了检测才导致确诊数上升的。一张来自约翰·霍普金斯大学统计的美国每日检测数和确诊率图也说明了这一点。[3]

由图可以看到,美国新冠病毒每日检测数确实一直在上升,5月21日到6月20日每日平均检测数为452922,6月21日到7月7日每日平均检测数上升为599142。但是自6月下旬开始每日确诊率(每日确诊数/每日检测数)也在上升。

即使6月下旬后仍然保持5月21日到6月20日的每日平均452922检测数不变,如果按照7月7日的移动平均确诊率8%计算,6月下旬之后的每日确诊数仍然会上升到36233例。比起原先平均每日22246例来说,仍是大幅上升。

因此,特朗普说的因为检测数更多所以确诊数更多,把相关关系说成因果关系,正是利用了这个统计陷阱来试图掩人耳目。

陷阱二、确诊数上升,死亡数反倒下降

特朗普的多篇推文都在重复一个点:虽然你们看现在每日的确诊数突破5万,但是死亡数一直都在下降啊,比起最高峰时一日死亡2749人(4月21日)来说,现在每日死亡人数都下降“十倍”了,假新闻媒体为什么不报道呢!

如果我们去看美国新冠病毒每日新增死亡病例的数据,会发现确实如特朗普所描述的那样:比起4月21日报告死亡了2749人来说,7月5日报告的死亡人数为262人,确实下降了“十倍”。

这里面特朗普所使用的陷阱估计明眼人都能看出来,那就是:患者从确诊到死亡具有一定的时间差,每位被统计到并公布死亡的新冠患者距离其确诊平均差了2-3周甚至更长的时间。

因此,当前的死亡病例数并非是当前的确诊病例数导致的,而是2-3周甚至更长时间之前的确诊病例数导致的。6月下旬新增的确诊病例,需要2-3周甚至更长的时间才能看见结果。

陷阱三、部分取代总体

或许特朗普心中也默默觉得单说现在的死亡人数下降数据并不具太大的说服力,于是他进一步拿病死率说事儿:美国新冠病毒病死率世界最低!

发完这篇推文之后,马上有他的拥趸贴出了这么一张图:

一眼看上去,确实是这么回事儿:法国、英国、意大利、西班牙等国家的新冠病毒病死率远在美国之上,最近就连德国的病死率都比美国要高。美国新冠病毒病死率世界最低!

仔细一想不对,世界除了西欧和美国之外,就没有其它国家了吗?难道美国人的眼中的世界就是美国和西欧吗?

我们进一步完善了世界各国新冠病毒病死率的图表,可以看到亚洲的韩国、欧洲的塞尔维亚、美洲的智利、非洲的南非和大洋洲的新西兰等国家的新冠病毒病死率都比美国要低很多。

面对这些数据,为什么特朗普还可以理直气壮地说“美国新冠病毒病死率世界最低”,以部分取代总体呢?大概是因为部分美国人眼中的世界还真是这样的。

陷阱四、辛普森悖论

除了并不是世界最低的之外,特朗普一直吹嘘的美国新冠病毒病死率其实还有其它的问题:每个国家的内部情况不同,并不能单纯对比病死率来看抗疫的情况。

为什么这么说呢?我们先举个例子。

假设1: 现在有两个国家分别为国家A和国家B,这两个国家新冠病毒确诊人数都为1000人,国家A因新冠病毒死亡人数为100人(病死率10%),国家B因新冠病毒死亡人数为200人(病死率20%)。

问你觉得哪个国家抗疫更为成功?

第一直觉,国家A的病死率更低,当然是国家A更为成功嘛。当真是这么简单吗?

我们简单地把A国和B国的确诊病例分为年轻人和老年人,假设2: A国年轻人确诊数为900,死亡数为30,老年人确诊数为100,死亡数为70,B国年轻人确诊数为600,死亡数为10,老年人确诊数为400,死亡数为190。

这样也符合以假设1的情况,但是无论是年轻人还是老年人的病死率,B国都比A国要低。

这是为什么呢?原因就在于A国和B国内在的人口结构不一样,导致确诊病例的人口年龄构成也不一样。B国的老年人比A国多很多,而老年人的病死率普遍偏高。于是造成了分组时都占优势,但总评时反而处于劣势的情况,该现象称作“辛普森悖论”。

这也是为什么统计学要求在比较两组数据时,首先要检查数据内部构成的原因。

因此,单纯拿美国新冠病毒病死率和其它病死率高的国家比,是不厚道的。

比如意大利截止到7月7日的新冠病毒病死率为14.4%,而美国为4.3%,是否可以单纯地说美国抗疫比意大利更为成功呢?我们分别从意大利高级卫生研究所和美国疾病控制与预防中心获取到意大利和美国的新冠病毒各年龄段确诊人数和病死人数的数据。[4] [5]

可以看到,意大利的确诊病例年龄主要集中在50岁以上,特别是80岁以上的老年人占了很大一部分比例。

而美国的确诊病例主要集中在20岁-69岁年龄段,与意大利相比偏年轻。

如果看美国和意大利各年龄段新冠病毒病死率的话,意大利在10-49岁年龄段的病死率都比美国低,而在50岁以上的病死率高于美国

因此,病死率是衡量抗疫是否成功的一个指标,但是并不能单纯拿病死率来做国家之间抗疫效果的比较。特朗普显然是利用了“辛普森悖论”的这一点。

五、特朗普聪明着呢!

纵观特朗普在推特上发表的这些统计数据,看似一点都不懂统计学,比如经常用“十倍”来形容下降,但却是一个非常善于利用统计数据和统计陷阱来说服选民的鬼才

很多人看了特朗普这几个月的骚操作之后,总以为特朗普不会是个傻子吧。特朗普才不傻,人家聪明着呢!

傻的是没有判断力的选民。

引用:

[1] Daily New Cases in the United States. https://www.worldometers.info/coronavirus/country/us/.

[2] 中室牧子, 津川友介. 原因与结果的经济学. 后浪丨民主与建设出版社, 2019-06.

[3] Rate of Positive Tests in the US and States Over Time. https://coronavirus.jhu.edu/testing/individual-states.

[4] Istituto Superiore di Sanità. Sorveglianza Integrata COVID-19 in Italia. 2020-06-22.https://www.epicentro.iss.it/coronavirus/sars-cov-2-sorveglianza-dati.

[5] Stokes EK, Zambrano LD, Anderson KN, et al. Coronavirus Disease 2019 Case Surveillance — United States, January 22–May 30, 2020. MMWR Morb Mortal Wkly Rep 2020;69:759–765. DOI: http://dx.doi.org/10.15585/mmwr.mm6924e2external.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Alfred数据室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档