统计概率思维：如何避免偏见？

开心鸭

发布于 2020-10-26 14:44:24

7480

文章被收录于专栏：开心鸭数据分析开心鸭数据分析

在学习之前先介绍一个包：Scipy

Scipy是一个用于数学、科学、工程领域的常用软件包，可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵，使Numpy和Scipy协同工作，高效解决问题。

1、离散概率分布

伯努利分布：伯努利试验是只有两种可能结果的单次随机试验（抛硬币）

我们首先用numpy的arange生成一个等差数组，0开始，一共2个数字，以1递增。

之后我们定义硬币朝上的概率p=0.5

用scipy.bernoulli.pmf 求离散函数，输入数组和概率就可以求得两个概率。

通过plt.plot，输入X为数组，Y为概率。

注意要加上plt.vlines(X,0,pList)，输入X坐标值，在输入Y的最小最大坐标值。

二项分布：

1.做某次事件的次数是固定的

2.每次事件都有两个可能的结果（成功或者失败）

3.每一次成功的概率都相等

4.求出成功K次的概率是多少

同样生成等差数组，但是这次生成六个数，因为可能全都失败0次的概率也要求。

伯努利的函数是 stats.binom.pmf(数组,次数,概率)

几何分布：

1.做某次事件的次数是固定的

2.每次事件都有两个可能的结果（成功或者失败）

3.每一次成功的概率都相等

4.做K次，成功1次的概率是多少（注意和伯努利进行区分）

几何分布的函数geom.pmf(数组,概率) 因为这里的12345代表第几次成功，所以函数不需要再次输入5了。

发现概率呈现递减。

泊松分布：

时间是独立的

2. 在任意相同的时间范围内，事件发生的概率相同

3. 你想知道某个时间范围内，发生某件事情k次的概率有多大。

2、连续概率分布

正态分布和幂律分布：

求正态分布：

如果要求大于Z的概率，可以求1-(小于Z)的概率

如果要求a和b之间的，可以求小于b-小于a的概率

3、总体和样本

我们可以看到样本构成了整体。

中心极限定理：

1）样本平均值约等于总体平均值

2）不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体平均值的周围，并且呈现正态分布

3）可以根据总体信息，判断某个样本是否属于这个总体。

样本偏见：样本不足（以偏概全）

幸存者偏差：我们通常关注显而易见的样本，忽略了没有机会出现的样本

概率偏差：心理概率和客观概率的不吻合

信息茧房：个性化推荐造成的，我们看到的只是我们喜欢的。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

numpy

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

numpy

登录后参与评论

0 条评论

热度