自证法帮你识别虚假数据

收到朋友伴随[惊讶]表情发来的下图:

图1

看这玩意儿真是气不打一处来,这种胡编乱造的东西,居然很有市场。

图片来自一篇微信公号文章,名叫《三亿中产不生孩子的真相》,发布者是一位大V,该文又被更大的V转发。单就我看到的两篇,就有2万多的转发量。

从评论来看,有感叹养不起娃的,有说养娃不如养蛙的,有怨恨政府不包办养娃的,有联想热点事件的……就是没有一个人对这篇“真相”中的“证据”(几幅图表),提出任何异议。

一向精通阴谋论,经常满面狡黠微笑“你懂得”的网友,居然一点不怀疑这些数据是虚假的

我们就说上面图1吧。

打眼一看这样一张图表,WTF!在北上广深养个孩子要200多万! 再看看家庭收入,要一对夫妻不吃不喝16-20年。就算二线城市,也要十几年的全部收入。 这可还怎么敢养孩子哟~~

但是,请等一等,这个“养娃成本”的数据来源是什么?

媒体发布这类养娃成本的历史悠久。但以前纸媒搞这种话题的时候,好歹还列个计算过程——是以什么样的家庭为例,孩子奶粉多少钱,尿布多少钱,上学习班多少钱等等,有个大致明细。然后再根据现状推论一下把孩子养到XX岁,一共要多少钱。

这个图1倒好,既没有说明是在什么样人群中采样统计的结果,也没有说这个总数之下分为几个方面的花费,连是养18年,22年还是一辈子都没有说明一下。

假设我要强行给图1洗地,尽量解释它的合理性。那么好吧,我可以做如下假设——

这个养娃成本,说的是:

  • 在其中所列城市里,
  • 以中产阶层(题目里写着“中产”嘛),在该地区最常用的养娃方式(e.g. 北京是上一堆辅导班,上海是上私立再上一堆辅导班,广州深圳是送到香港上私立再上一堆辅导班,etc.),
  • 根据当前的状况和人民币购买力推测出的,
  • 把一个娃从出生养到大学毕业所需的成本。

至于具体数据来源嘛,我们可以进一步假设,是在这些城市找了一些中产家庭,通过采访获得的。

看起来很合理是不是?

可是我们再看看图1第一列数字和第二列数字相除的商

根据这两列图例的解释,这个商表示的应该是在这些城市中生活家庭的全部年收入。是怎样的家庭呢?根据题目,我们可以推断是这些城市的中产家庭。

可是,大家请真正除一下就会发现,所有的商居然都在12正负0.01(万)的范围内。

换言之,图1的提供者认为,图1中所有城市的中产家庭年收入都是约等于12万

这一点,即便是放在普通人的常识里,也知道有多么错误吧。

中国现阶段发展不平衡的一大表现就是地区之间收入差距巨大。长春和北京会是同一个种收入水平吗?

如果还要强行为图1寻找合理性,非要说这是在不同城市里挑选了不同收入层次的家庭(例如北京的普通收入对应长春的中产,或者北京的中产对应长春的高收入),那么就要请问了,这样把没有可比性的数据放在一起展示的目的,除了误导还有什么呢?!

至此,面对图1,这样一份连纯粹数据内部互相印证的合理性都不存在的数据,判断其为虚假数据,是确定无疑了。


三亿》一文中引用的图表不止图1一幅。

还有一张表格提名是“新兴中产阶层子女数量比例”,文中说是源自福布斯发布的《2018年中国新型中产阶层财富白皮书》。

我在网上搜索了一下,提到有这样一份白皮书的网页众多,但都没有该白皮书原文。

另有一分“预计出生人数”,未标明源头。

这两份数据直接从本身看,并没有很明显直接违背一般常识的地方,也不好立刻就下结论说它们是虚假的。

但对于一篇文章的作者而言,如果已经引用了一份造假明显的数据,那么至少属于态度不严谨。

更何况这份数据还是作为主要证据出现,如果它本身就不成立的话,其后基于它的论点又如何可信呢

自媒体时代,很大程度上实现了出版自由,发布的文章、稿件不再经由权威单位预先审核,方便了作者和读者。

然而自由和便利都是有代价的

对于读者而言,你所读到的大量通过社交媒体直接发布的言论,都不再有人替你预先检验其真实性

如果想从便利中获得有效信息,从自由中寻觅理性思考,作为读者,就要自己负担去伪存真的责任

下列几点建议,可以用来帮助我们去伪存真:

  1. 区分作者所陈述的事实、推论和观点(论点)。
  2. 明确只有事实才有可能成为论据,推论不能直接用于论证论点。
  3. 被当作事实陈述的事物,如果不是来自作者的第一手资料,就需要额外的引证来论证其自身的真实性。
  4. 即便论述事实自身的真实性得以保障,也并不一定能够作为论据支持论点。论据真实的前提下,对论点的支持建立在逻辑性上。
  5. 在外部引证一时无法确认的情况下,可以先在论证内部自证。如果论据自相矛盾,或者违背常识(如图1),则可直接认定伪证。

信息爆炸的时代,让我们擦亮双眼!

如果不知道从何开始,先学点概率论吧。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2018-01-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

美国下注15亿美元重点搞芯片!电子复兴5年计划首批入围项目曝光

在这个靠近硅谷湾区的明星城市,美国首次“电子复兴计划”峰会(ERI Summit)拉开帷幕。

1.2K30
来自专栏新智元

【干货】100家硅谷IT公司技术博客-吐槽篇(上)

之前笔者写过一篇“这些硅谷创业的公司,哪一家惊艳了你”,算是处女作吧,还写过一篇介绍“美国大数据创业公司”。其实介绍硅谷公司有不同的角度,有参观访问的角度,有从...

37130
来自专栏CDA数据分析师

用数据讲故事的7种方法

文 | Martha Kang 翻译 | 赵丹、王宝丽 什么使一个故事真正成为数据驱动呢?在某种程度上,数字不再仅仅是出现在侧栏的表格,而是能够在真正意义上促...

21460
来自专栏新智元

超人主义的未来:人和机器合为一体,成为近乎于神的化身

21740
来自专栏about云

埃博拉病毒——大数据时代的疫情防控

2014年时代杂志的年度人物称号由埃博拉患者护理人员获得,在向他们致敬的同时,让我们回顾一下去年这场饱受关注并且持续到今年的全球性传染病事件。 2014年继马...

31170
来自专栏大数据文摘

新年书单 | 美国科技公司CIO们在2016年最推荐的17本非商业书籍

18860
来自专栏量子位

谷歌收购计算机视觉公司AIMatter,后者曾推出过Fabby

安妮 编译自 TechCrunch 量子位 出品 | 公众号 QbitAI 今天,谷歌收购了白俄罗斯图像处理初创公司AIMatter,具体条款尚未披露。 AIM...

35940
来自专栏数说工作室

谈资 | 十日大数据参考

我们将过去10天里播报的大数据新闻,浓缩成17条精选资讯,您只要在20分钟就可以读完,了解下这个行业的变化吧~ 1. 数说× “各行各业都在装备大数据” 2....

30940
来自专栏飞总聊IT

有理有据的胡说八道:由DB圈的一桩陈年公案看大数据时代的数据科学

忽如一夜春风来,大数据之漫山遍野的开。如今的IT界,言必称大数据云计算,高级一点的还有机器学习人工智能。数据科学正在如火如荼的在IT公司里发展。数据科学家们出身...

36560
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(49)-SD-分销

分销业务 举凡企业经营者大多知道,产品是企业的立身之本、销售网络则是企业的立命之本。品牌加网络是当今企业成功的模式,企业只有在目标市场建立一个能够覆盖整个目标市...

36650

扫码关注云+社区

领取腾讯云代金券