有两个正态分布的总体X~N((μ_1,σ_1^2)),Y~N((μ_2,σ_2^2)),来自X的样本(X_1,X_2,...,X_n),样本均值
,样本方差(S_1^2);来自Y的样本(Y_1,Y_2,...,Y_n),样本均值
,样本方差(S_2^2)。两个分布的置信水平都设定为1-α,(σ_1^2=σ_2^2=σ^2)为未知,我们要求的是均值差(μ_1-μ_2)的置信区间。
由于(σ^2)未知,所以我们不能使用({(mean(X)-mean(Y))-(μ_1-μ_2)\over \sqrt{{σ_1^2\over n_1}+{σ_2^2\over n_2}}})~N(0,1)这个统计量,只能够使用样本方差来代替总体方差,则我们可以使用
({(mean(X)-mean(Y))-(μ_1-μ_2)\over S_W\sqrt{{1\over n_1}+{1\over n_2}}})~t((n_1+n_2-2))
这个统计量,其中
(S_W=\sqrt{(n_1-1)S_1^2+(n_2-1)S_2^2\over n_1+n_2-2})
它利用了两个样本的方差来得到一个新的方差,再由新的方差得到新的标准差(S_W),称为合并标准差(pooled standard deviation)。
类比于 ({mean(X)-μ\over {S\over \sqrt{n}}})~t(n-1)的置信区间((mean(X)(+/-){S\over \sqrt{n}}t_{α\over 2}(n-1))),可知这个新的统计量的置信区间就为
((mean(X)-mean(Y)(+/-)S_W\sqrt{{1\over n_1}+{1\over n_2}}t_{α\over 2}(n_1+n_2-2)))
示例5: 25左右人群的月收入服从正态分布 N((μ_1,σ_1^2)),35左右人群的月收入服从正态分布 N((μ_2,σ_2^2)),(σ_1,σ_2)相等但未知;我们记录了30名25岁和40名35岁个体的月收入。这30名25岁个体平均收入为16000,标准差为2500;这40名35岁个体平均收入为25000,标准差为7000。求(μ_1-μ_2)置信水平为95%的置信区间。
由题意,我们可以知道
=16000,
=25000
首先我们可以计算合并标准差为
(S_W=\sqrt{(n_1-1)S_1^2+(n_2-1)S_2^2\over n_1+n_2-2}=\sqrt{(30-1)*2500^2+(40-1)*7000^2\over 30+40-2}=5546.925)
这里的置信区间为((t_{α\over 2}(30+40-2)=1.995))
((mean(X)-mean(Y)(+/-)S_W\sqrt{{1\over n_1}+{1\over n_2}}t_{α\over 2}(n_1+n_2-2)))
(=(16000-25000(+/-)5546.925*\sqrt{{1\over 30}+{1\over 40}}*1.995))
=(-11672.72,-6327.28)