前言
推断统计的核心就是研究如何利用样本去推断总体特征。因为总体的情况一般是未知的,我们又想研究总体的特征,于是我们采用抽样的方法。用样本均值估计总体均值,用样本方差去估计总体方差。
但是在利用样本方差去估计总体方差时候,样本方差的计算公式为:
\begin{aligned}
s^2
&=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2
\end{aligned} 而总体方差的的计算公式为:
\begin{aligned}
\sigma^2
&=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2
\end{aligned} 为什么用样本方差估计总体方差时候,分母是n-1呢?国内统计学的课本通常给出的解释是与自由度有关,看完之后,好像懂了,但好像又没完全懂。
今天我们就深究一下这样计算的原因。文中涉及公式较多,但都比较基础,很好理解,大家可以放心食用。
其实这是因为在计算估计总体方差时是使用样本均值\bar x去代替总体均值\mu,在这种情况下,除数为n 可能会低估总体方差。除数是n-1 (样本数量-1),而不是样本数量n ,目的是代偿样本均值代替总体均值引起的变化。于是又产生两个问题:
- 为什么使用样本均值会低估总体方差?
- 除数为n-1 为什么可以补偿样本均值代替总体均值引起的变化?
接下来我们一一证明。
1.为什么使用样本均值会低估总体方差?
1.1通俗解释版
假如我们有5个样本,样本均值为17.6,总体均值未知。
- 假如总体均值为0,方差为391;
- 假设总体均值为5,方差为240;
- 假设总体均值为30,方差为235;以此类推,不断变化总体均值,并计算对应的方差,将结果绘制在坐标轴上。横轴表示不断变化的总体均值,纵轴对应方差。
当总体均值等于实际观测到的样本均值时,方差最小,为81.4。
而实际总体均值等于样本均值的可能性非常小,故实际总体对应的方差大于样本方差,为87.2。故只要用样本均值估计总体方差时,除以n 就会低估总体方差。
1.2严格证明版
看完上面的解释之后,大家应该已经懂了为什么除以n 会低估总体方差了。接下来,我们用公式严格推导一下为什么会这样。在证明之前我们需要一些准备工作。
- 符号说明
- \bar X 表示样本均值,
- s^2 表示样本方差,
- \mu 表示总体均值,
- \sigma ^{2} 表示总体方差。
在之后的证明中,我们都用上述符号来表达相应的概念。
\begin{aligned}
s^2=\frac{1}{n-1}\sum_{i=1} ^n(X_i-\bar X)
\end{aligned} \begin{aligned}
\sigma^2&=D(X)\\
&=E((X_i-E(X))^2)\\
&=E(X_i^2-2X_iE(X)+E(X)^2)\\
&=\frac{1}{n}(\sum_{i=1}^n(X_i^2)-2\sum_{i=1}^nX_iE(X)+nE(X)^2)
\end{aligned} 由于
\sum_{i=1}^{n}X_i=nE(X)
所以有
\begin{aligned}
\sigma^2&=D(X)\\
&=E((X_i-E(X))^2)\\
&=E(X^2)-E(X)^2
\end{aligned} 设从均值为\mu ,方差为 \sigma^{2} 的一个任意总体中抽取容量为n 的样本,当n 充分大的时候,样本均值的抽样分布服从N(u,\frac{σ ^2} {n}) 的分布,即:
E(\bar X)=\muD(\bar X)=\frac{\sigma^2}{n}- 无偏估计
如果\hat\theta 的期望等于\theta ,则称\hat\theta 是\theta 的无偏估计,即E(\hat\theta)=\theta 。例如:如果样本均值\bar X 是总体均值的无偏估计,则:
E(\bar X)=\frac{1}{n}\sum_{i=1}^nE(X_i)=E(X)=\mu
所有的前期准备工作就此结束了,接下来开始证明:
假设:
s^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2
则有:
\begin{aligned}
s^2&=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2\\
&=\frac{1}{n}\sum_{i=1}^n[(X_i-\mu)+(\mu-\bar X)]^2\\
&=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2+\frac{2}{n}\sum_{i=1}^{n}(X_i-\mu)(\mu-\bar X)+\frac{1}{n}\sum_{i=1}^{n}(\mu-\bar X)^2\\
&=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2+2(\bar X-\mu)(\mu-\bar X)+(\mu-\bar X)^2\\
&=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2-(\mu-\bar X)^2 < \frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2
\end{aligned}
可以看出,除非
\bar X = \mu
否则一定有:
\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2 < \frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2
不等式右边才是对方差的“正确估计”,但是我们是不知道真正的总体均值是多少,只能通过样本的均值来代替总体的均值。
所以样本方差估计量如果是用没有修正的方差公式来估计总计方差的话,会低估总体方差。为了能无偏差的估计总体方差,所以要对方差计算公式进行修正,该如何修正呢?我们再推导一下。
2. 除数为为什么可以补偿样本均值代替总体均值引起的变化?
同样,我们还是假设
s^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2
我们通过求期望的方式,来看他是否是总体方差的无偏估计。
\begin{aligned}
E(s^2)&=E(\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2)\\
&=E[\frac{1}{n}\sum_{i=1}^n(X_i^2)-\frac{2}{n}\sum_{i=1}^nX_i\bar X+\frac{1}{n}\sum_{i=1}^n\bar X^2]\\
&=E(\frac{1}{n}\sum_{i=1}^nX_i^2-2\bar X^2+\bar X^2)\\
&=E(\frac{1}{n}\sum_{i=1}^{n}X_i^2-\bar X^2)\\
&=E(\frac{1}{n}\sum_{i=1}^{n}X_i^2)-E(\bar X^2)\\
&=E[(X_i)^2]-E(\bar X^2)
\end{aligned} 由
D(X)=E(X^2)-[E(X)]^2\implies E(X^2)=D(X)+[E(X)]^2
将其代入上式得:
\begin{aligned}
E(s^2)&=D(X_i)+[E(X_i)]^2-(D(\bar X)+[E(\bar X)]^2)
\end{aligned} 将:
\begin{aligned}
E(\bar X) &= E(\frac{1}{n}\sum_{i=1}^{n}X_i)\\
&=\frac{1}{n}\sum_{i=1}^{n}E(X_i)\\
&=\frac{1}{n}\times n \times E(X_i)\\
&=E(X_i)
\end{aligned}\begin{aligned}
D(\bar X)&=D(\frac{1}{n}\sum_{i=1}^{n}X_i)\\
&=\frac{1}{n^2}\sum_{i=1}^{n}D(X_i)\\
&=\frac{1}{n^2}\times n\times D(X_i)\\
&=\frac{1}{n}D(X_i)
\end{aligned}代入上式得:
\begin{aligned}
E(s^2)&=D(X_i)+[E(X_i)]^2-(\frac{1}{n}D(X_i)+[E(X_i)]^2)\\
&=D(X_i)-\frac{1}{n}D(X_i)\\
&=\frac{n-1}{n}D(X_i)\\
&=\frac{n-1}{n}\sigma^2
\end{aligned} 所以
E(s^2)=\frac{n-1}{n}\sigma^2
因此要想得到总体方差的无偏估计,需要对样本方差进行修正:
\begin{aligned}
\frac{n}{n-1}E(s^2)&=\frac{n}{n-1} \times \frac{n-1}{n}D(X_i)\\
&=\frac{n}{n-1} \times \frac{n-1}{n}\sigma^2\\
&=\sigma^2
\end{aligned}综上,我们在计算样本方差的公式为,
\begin{aligned}
s^2&= \frac{n}{n-1} [ \frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2]\\
&=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2\end{aligned} 这就解释了为什么要对方差计算公式进行修正,且为什么要这样修正。