通过一个身高调查数据后发现:大家都爱虚报身高?

对有些人来说,身高是尊严,对有些人来说,身高无非数字。

但随着社会的发展,其实相当大部分的人还是很重视自己的身高的。

今天我们通过统计在相亲网上爬取的50万用户的信息,来看看关于身高的问题,大家都是怎么看待的~~

数据说明

1、数据来源

本次的统计数据来自某相亲网站,信息都是用户自己填写的。

正常情况下大家报身高都是往高虚报,极少人往矮报吧?所以,本次统计的身高结果应该会比真实情况更高一些,当然,这还只是个人揣测。

本次调查的地方是在:北京、上海、广州和重庆四个城市。

而原因是:

四座城市在祖国的不同方位,收集样本范围够广

四座城市都是大城市,外来人口较多,汇集了全国各地的人,能在一定程度上体现总体趋势

2、年龄分布

先对统计用户的年龄进行了可视化,x轴是年龄,y轴是人数,波峰是27岁。

统计用户的年龄分布

除此之外,还分别统计了男性和女性的年龄分布,女性年龄的波峰出现在27岁,男性年龄的波峰出现在29岁。

总体平均年龄:32.332岁

男性平均年龄:33.239岁

女性平均年龄:31.929岁

3、性别分布

本次统计用户的性别分布情况

本次统计的用户中女性占了大多数。

其实是爬数据的时候先抓取了女性数据,在女性数据抓取完成后才抓取的男性数据,而当看数据库样本数据到50万的时候就把爬虫停了。

正态分布

在看统计结果之前,我们先提一下“正态分布”。

正态分布,也称“常态分布”,又名高斯分布。

正态分布是一种概率分布。它是具有两个参数μ和σ的连续型随机变量的一种分布。

这里就不过多地介绍正态分布啦,只需知道,身高在样本数量足够大的时候应该服从正态分布(如果有不同的意见,欢迎指正)。

正态分布的曲线图应该如下图所示(中间高,两边低,两侧大致对称),在这种情况下,数据才具有一定的真实性,否则数据就有一定的作假嫌疑。

正态分布示意图

当然目测是不准确的,还需要通过方差、期望等来判断。不过当人肉眼都能看出一条曲线不符合正态分布时,那这个数据的真实性就真有待商榷了。

数据展示

1、男性

统计用户中男性的身高分布情况

可以看到男性身高的分布情况不那么符合正态分布。

波峰出现在170cm,人数是24515人。

身高人数前五名是:

不知大家发现没有,这些身高都是极其常见的身高。

揣测一下,在大多数自报身高的情况下——不足170cm同学的都报170cm,不足175cm的都报175cm。

其实大家办理户口录入身高时就是这样操作的,常见身高就是这几个数字。所以才在开头说,大家的真实身高应该会比统计值稍微低一些。

我们来算一下平均值,再把脏数据去除之后,算出来的所有男性的身高平均值是(单位cm):

2、女性

女性的身高统计方式和男性一样,就不过多解释了,这里直接展示统计结果:

统计用户中女性的身高分布情况

女性身高分布图有点狠啊,160cm远远超过了其他身高值。

身高人数前五名是:

女性平均身高(单位cm):

结论

看完这个统计结果,对比了一下国家公布的数字,下图是百度百科公布的2015年国家统计的身高数据:

相亲网站上的身高数据比国家的统计高出了约6厘米。

到底是因为相亲网上的用户中年轻人较多而年轻人又长得高,还是大家填写的身高数据水分比较大呢?

还有一种可能就是此次统计的用户是城市居民,而城市居民的平均身高会相对高一些?

想长高 科学办法很重要!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181025A1P4U500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券