前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一文看懂中心极限定理

一文看懂中心极限定理

作者头像
磐创AI
发布2021-04-21 11:13:40
2.1K0
发布2021-04-21 11:13:40
举报
文章被收录于专栏:磐创AI技术团队的专栏

磐创AI分享

作者 | Indhumathy Chelliah 编译 | VK 来源 | Towards Data Science

中心极限定理

中心极限定理是推理统计中的一个重要概念.推理统计学是指从样本中对总体进行推断.

当我们从总体中抽取一个随机样本并计算其均值时,由于抽样波动,它很可能与总体均值不同.样本统计量和总体参数之间的变化称为抽样误差.

由于这种抽样误差,从样本统计数据中推断总体参数可能是困难的.中心极限定理是推理统计中的一个重要概念,它帮助我们从样本统计量中对总体参数进行推理.

让我们在这篇文章中详细学习中心极限定理.

参考我的推理统计故事——了解概率和概率分布的基础知识

再突破!曹原新年首篇Nature

目录

  1. 统计、参数
  2. 抽样分布
  3. 标准错误
  4. 抽样分布属性
  5. 中心极限定理
  6. 置信区间
  7. 抽样分布可视化

什么是统计和参数?

统计量→代表样本特征的值称为统计量.

参数→表示总体特征的值称为参数.(我们从总体统计数据中推断出的值)

统计量→样本标准差S,样本均值X

参数→总体标准差σ,总体均值μ

我们从统计量到参数进行推理.

抽样分布

抽样——从总体中抽取有代表性的样本.

抽样分布是指从总体中抽取的一个给定样本的所有可能值的分布.

抽样分布均值是指从总体中选取的给定样本容量样本均值的分布.

抽样分布步骤:
  • 我们将从总体中抽取随机样本(s1,s2…sn).
  • 我们将计算样本的均值 (ms1,ms2,ms2….msn).
  • 然后计算抽样均值的均值.(ms)

ms=(ms1+ms2+…msn)/n

n →样本大小.

现在我们算出了抽样均值的均值.接下来,我们必须计算抽样均值的标准差

标准差

样本均值在抽样分布中的可变程度是标准差.抽样分布的标准差称为均值的标准差.

均值标准差=总体标准差/sqrt(n)

n -样本大小

[随着样本量的增加,标准差减小.所以大样本有助于减少标准差]

抽样分布特性

  1. 抽样均值的均值等于总体抽样均值的均值等于总体均值.

当我们从总体中抽取许多随机样本时,这些变化就会抵消掉.抽样均值的均值等于总体均值

  1. 抽样分布的标准差等于总体标准差除以根号下样本容量抽样分布的标准差等于总体标准差除以根号下样本容量抽样分布的标准差等于总体标准差除以根号下样本容量.

中心极限定理

中心极限定理指出,即使总体不是正态分布,抽样分布也会服从正态分布,前提是我们从总体中抽取足够大的样本.[对于大多数分布,n>30将给出一个接近正态的抽样分布]

抽样分布的性质也适用于中心极限定理。

置信区间

通过使用置信区间,我们可以说总体均值将处于某个范围内.

置信区间是总体参数可以取的值的范围.

总体均值置信区间=样本均值+(置信水平值)*均值标准差

Z→Z分数与置信程度相关.

最常用的置信水平

99%置信水平→Z得分= 2.58

95%置信水平→Z得分= 1.96

90%置信水平→Z得分=1.65

使用Python和Seaborn进行抽样分布

例子:

  1. 假设我们要计算一所学校所有学生的平均分.

学生人数= 1000.

代码语言:javascript
复制
population1=np.random.randint(0,100,1000)
  1. 检查分布
代码语言:javascript
复制
sns.distplot(population1,hist=False)

总体不是正态分布的.

  1. 我们将从总体中抽取小于30的随机样本.
代码语言:javascript
复制
sample_means1=[]
for i in range(0,25):
 sample=np.random.choice(population1,size=20)
 sample_means1.append(np.mean(sample))

sample_m1=np.array(sample_means1)
  1. 抽样分布
代码语言:javascript
复制
sns.distplot(sample_means1,hist=False)
plt.title(“Sampling distribution of sample mean”)
plt.axvline(sample_m1.mean(),color=’green’,linestyle=’ — ‘)
plt.xlabel(“Sample Mean”)

抽样分布接近正态分布

  1. 让我们检查一下抽样均值和标准差.
代码语言:javascript
复制
print (“Sampling mean: “,round(sample_m1.mean(),2))
print (“Standard Error: “,round(sample_m1.std(),2))
#Output:
Sampling mean:  47.96
Standard Error:  6.39

标准差= 6.39.我们增加样本容量,看看标准差是否下降.

  1. 抽样量大于30,计算抽样均值
代码语言:javascript
复制
sample_means2=[]
for i in range(0,100):
 sample=np.random.choice(population1,size=50)
 sample_means2.append(np.mean(sample))

sample_m2=np.array(sample_means2)
  1. 抽样分布
代码语言:javascript
复制
sns.distplot(sample_means2,hist=False)
plt.title(“Sampling distribution of sample mean”)
plt.axvline(sample_m2.mean(),color=’green’,linestyle=’ — ‘)
plt.xlabel(“Sample Mean”)

抽样分布现在是正态分布.

  1. 计算抽样均值和标准差
代码语言:javascript
复制
print (“Sampling mean: “,round(sample_m2.mean(),2))
print (“Standard Error: “,round(sample_m2.std(),2))

# Output:
Sampling mean:  48.17
Standard Error:  3.89

增大样本量后,标准差减小.现在标准差是3.89.

  1. 我们来验证一下总体均值
代码语言:javascript
复制
print (“Population Mean: “,round(population1.mean(),2))

#Output:
Population Mean: 48.03

抽样均值是48.17约等于总体均值48.03

  1. 计算99%置信水平的置信区间.
代码语言:javascript
复制
Lower_limit=sample_m2.mean()- (2.58 * (sample_m2.std()))
print (round(Lower_limit,2))
#Output: 38.14

Upper_limit=sample_m2.mean()+ (2.58 * (sample_m2.std()))
print (round(Upper_limit),2)
#Output: 58.19

置信区间= 38.14 - 58.19

结论

在本文中,我介绍了中心极限定理、抽样分布、标准差和置信区间.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 磐创AI分享
  • 目录
    • 抽样分布步骤:
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档