6σ是个P(4):咋就击败了全国99%的电脑

“你不必吃完整头牛,就能知道肉老。”

统计学的一个核心功能就是使用手中已有的数据进行合理推测,以回答我们还未掌握所谓信息“大”的问题。简言之,我们能够使用“已知世界”的数据对“未知世界”进行推断。

一、引子

这张图大家很熟悉吧,有没有想过360是如何知道你的开机时间怎么就击败了全国99%的电脑的?

最近一直在看统计学,突然意识到了360数据背后的原理,速度总结下来。

二、再谈正态分布

在前面一篇六西格玛是个P(3):正态分布与假设检验里面初步认识了正态分布以及均值和标准差。

摘自《正态分布_百度百科》:

正态分布也叫常态分布,是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如能力的高低,学生成绩的好坏等都属于正态分布。它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。

结论:开机时间我们推断也是正态分布。

备注:参见六西格玛是个P(1)什么是P?,如何判断正态分布。

1、68-95-99.7规则

周五下班地铁上翻完了《统计的世界 上册》,再学习一下正态分布的68-95-99.7原则(记住这三个数字):

在任何正态分布中当中,大约有:

68%的观察值,落在平均数一个标准差的范围内。

95%的观察值,落在平均数两个标准差的范围内。

99.7%的观察值,落在平均数三个标准差的范围内。

2、利用68-95-99.7原则进行计算

知道了正态分布的均值μ、标准差σ以及当前的开机时间,就可以很快的推断中大致的概率分布(更精确的计算可以采用公式)。

这里有两个前提:

开机时间符合正态分布

根据吃牛肉原理,360只是掌握了部分用户的数据(安装了360的用户),通过这些数据可以推断整体/全国的数据分布情况。

三、统计思维:大数据时代瞬间洞悉因果的关键技能

这是前几天也很想买的一本书的名字,大家有兴趣也可以找来看看。

要想搞清楚大数据,必须要了解一点统计学,在《赤裸裸的统计学》里面也提到:统计学是大数据了时代最炙手可热的学问。

了解点统计学才能更好的挖掘数据的价值。

长按不会怀孕,还能带你涨姿势!

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180107G03EOB00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区