前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据化评论】数据的“忽悠”功能

【数据化评论】数据的“忽悠”功能

作者头像
CDA数据分析师
发布2018-02-08 15:07:06
4430
发布2018-02-08 15:07:06
举报
文章被收录于专栏:CDA数据分析师

【摘要】 还是从新浪微博说起,今天读到这样一条微博,这是一条某大报官方微博发出的一条微博: 这条微博的结论是:即使5次都受孕成功,在13亿多人口的大国,这5个孩子相遇并相爱的几

还是从新浪微博说起,今天读到这样一条微博,这是一条某大报官方微博发出的一条微博:

这条微博的结论是:即使5次都受孕成功,在13亿多人口的大国,这5个孩子相遇并相爱的几率微乎其微。我们就从这个机率说起,看看这个记者是如何“忽悠”读者,瞒天过海的。我确实相信这个机率会非常低,但是这个记者的逻辑对吗?根据记者的逻辑这五个孩子相遇的机率是5/13亿,这个机率确实非常小。但是这样算对吗?合理吗?按照这个记者的逻辑我们还可以用地球人的总数50亿来做分母,那机率不会更低!更具有说服力?为什么不呢? 其实这样是不对的,我们必须考虑到如下的因素: 捐精行为一般在固定的地区,固定的医院进行,且受孕者一般来讲都会是这个地区或城市的女性。所以相遇机率的分母不应该是13亿,而应是该地区或城市的人口总数(下面假设为A)。这样来看相遇机率就会大大的提高了。某些直辖市人口只有3~4千万人,想想这个机率比5/13亿大了多少!大了30~40倍。 有的脖友提到异地捐精,实际上这个因素不能改变这五个子女的相遇机率。唯一能改变的是捐精者的亲生子女和这“五子”相遇的概率。 人口的流动性会影响相遇机率,如果是70年代,中国的人基本上是不流动的,那么相遇率就是5/A。因为A是一个恒值。但实际上在目前这个社会A不可能是一个恒值。他应该是固定人口加上流动人口(因为该地区所有人都可能和“五子”相遇),假设这个数是B。所以相遇率就是5/B(B会比A稍大)。流动性的大小也会影响B值,不同的地区的流动性也会不一样。 1~3都是说的相遇率,而这条微博是说相遇并相爱的机率微乎其微。注意是相爱!那这个机率算法一定不等于5/B。应该是5/C,如何计算C?我们从正常的伦理关系以及恋爱正常的年龄跨度来考虑此问题(即同性恋、双方年龄跨度大于10岁的不考虑)。那么C值就应该是“五子”年龄±10岁的年龄段的人群总量的一半(为何是一半,因为同性恋不在我们考虑范畴内,且我简单的认为男女比例一样),那么C=B/4/2=B/8。第一个4是20岁的年龄范围估计占人口总数的1/4(纯估计,没有数据源),第二个2是异性占一半的比例!此时相爱率就是(1~5)/C。“1~5”意思是“五子”全为同性则取五,有男有女则分别对待。 是否还要考虑其他因素,暂时还没有想到。我们大致来看看计算结果(假设五子全为男孩,计算某3000万人的直辖市,流动人口1000万)。相遇且相爱率可能是5/500万即百万分之一,而按记者的算法是1/2.6亿。概率差了260倍。 也许有人会认为我鸡蛋里挑骨头,实际上你注意看这种瞒天过海的伎俩到处都是。比如见过一个出租车副驾后背的一个广告位的招商广告:投广告,你的产品广告受众每天将达到200万人(200万人该城市是每天坐出租车的乘客人数)。你自己算算这个广告欺骗度有多大。你要考虑的因素是:该广告是否可以覆盖所有出租车,坐前排的乘客是看不到广告的,后排靠司机后背的乘客打击率也很小。当然你作一些市场调查后这个值有可能会相对准确的算出来,但是那一定比200万少多了。 对于一个从事数据分析的人员来说,分析的逻辑性、全面性是非常关键的! 所以,处处留心皆忽悠。不过,据说这也是一门艺术,归赵本山管!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2013-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档