前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计学整理(二)

统计学整理(二)

作者头像
算法之名
发布2024-07-14 08:55:54
610
发布2024-07-14 08:55:54
举报
文章被收录于专栏:算法之名

统计学整理

  • 两个方差相等且未知,求均值差的置信区间

有两个正态分布的总体X~N((μ_1,σ_1^2)),Y~N((μ_2,σ_2^2)),来自X的样本(X_1,X_2,...,X_n),样本均值

,样本方差(S_1^2);来自Y的样本(Y_1,Y_2,...,Y_n),样本均值

,样本方差(S_2^2)。两个分布的置信水平都设定为1-α,(σ_1^2=σ_2^2=σ^2)为未知,我们要求的是均值差(μ_1-μ_2)的置信区间。

由于(σ^2)未知,所以我们不能使用({(mean(X)-mean(Y))-(μ_1-μ_2)\over \sqrt{{σ_1^2\over n_1}+{σ_2^2\over n_2}}})~N(0,1)这个统计量,只能够使用样本方差来代替总体方差,则我们可以使用

({(mean(X)-mean(Y))-(μ_1-μ_2)\over S_W\sqrt{{1\over n_1}+{1\over n_2}}})~t((n_1+n_2-2))

这个统计量,其中

(S_W=\sqrt{(n_1-1)S_1^2+(n_2-1)S_2^2\over n_1+n_2-2})

它利用了两个样本的方差来得到一个新的方差,再由新的方差得到新的标准差(S_W),称为合并标准差(pooled standard deviation)。

类比于 ({mean(X)-μ\over {S\over \sqrt{n}}})~t(n-1)的置信区间((mean(X)(+/-){S\over \sqrt{n}}t_{α\over 2}(n-1))),可知这个新的统计量的置信区间就为

((mean(X)-mean(Y)(+/-)S_W\sqrt{{1\over n_1}+{1\over n_2}}t_{α\over 2}(n_1+n_2-2)))

示例5: 25左右人群的月收入服从正态分布 N((μ_1,σ_1^2)),35左右人群的月收入服从正态分布 N((μ_2,σ_2^2)),(σ_1,σ_2)相等但未知;我们记录了30名25岁和40名35岁个体的月收入。这30名25岁个体平均收入为16000,标准差为2500;这40名35岁个体平均收入为25000,标准差为7000。求(μ_1-μ_2)置信水平为95%的置信区间。

由题意,我们可以知道

  1. 样本均值

=16000,

=25000

  1. 样本容量(n_1=30,n_2=40)
  2. 样本标准差(S_1=2500,S_2=7000)
  3. α=0.05

首先我们可以计算合并标准差为

(S_W=\sqrt{(n_1-1)S_1^2+(n_2-1)S_2^2\over n_1+n_2-2}=\sqrt{(30-1)*2500^2+(40-1)*7000^2\over 30+40-2}=5546.925)

这里的置信区间为((t_{α\over 2}(30+40-2)=1.995))

((mean(X)-mean(Y)(+/-)S_W\sqrt{{1\over n_1}+{1\over n_2}}t_{α\over 2}(n_1+n_2-2)))

(=(16000-25000(+/-)5546.925*\sqrt{{1\over 30}+{1\over 40}}*1.995))

=(-11672.72,-6327.28)

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档