数据科学基础(六) 参数估计

Rikka

发布于 2022-01-19 17:38:32

7130

发布于 2022-01-19 17:38:32

文章被收录于专栏：rikkarikka

📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维

6.1. 参数的点估计

总体分布 X 的分布形式已知,未知的只是分布中的参数,要估计的只是参数或者参数的某一函数.

6.1.1. 矩估计法

公式 \displaystyle \frac{1}{n}\sum_{i=1}^{n}x_i^k=A_k=\mu_k=E(x^k)

样本矩总体矩

注意: 样本阶中的计算都是 n 而不会用到样本方差 S^2

6.1.2. 极大似然估计

估计参数值,使得出现该样本的可能性最大.

则似然函数:

\begin{aligned}\\ &L(\theta)=P_1P_2P_3\ldots P_n(\text {Discrete}) \\ &L(\theta)=f(X_1)f(X_2)f(X_3)\ldots f(X_n)(\text{continuous})\end{aligned}

令 L′(θ)=0(等价于(ln⁡(L(θ)))′=0),得到一阶导函数零点,进而求得最大值.

注意: 可能求出多个可能的 p, 保证样本每一项的概率都为正进行舍去.

6.2. 点估计的优良性准则

1. 无偏性

令 \hat{\theta} 为参数 \theta 的估计量 t, 定义：如果对一切 \theta \in \Theta, 有 E\hat{\theta}=\theta 成立,则称 \hat\theta 为参数 \theta 的无偏估计量.

例1: 总体 X ,EX=\mu,DX=\sigma^2,样本为(X_1,X_2\ldots X_n),则

\bar{X} 是\mu 的无偏估计.

样本方差 S^2 是 \sigma^2 的无偏估计.

非修正样本方差是 \sigma^2 的有偏估计.

注意:例1 永远成立, 与总体分布类型无关.

例2: S^2 是 \sigma^2 的无偏估计, S 不一定是 \sigma 的无偏估计.

可得到结论: \hat\theta 是 \theta 的无偏估计, g(\hat{\theta}) 不一定是 \theta 的无偏估计.

证明: \begin{aligned} &\\ &DS = ES^2 - (ES)^2=\sigma^2-(ES)^2 \\ &ES = \sqrt{\sigma^2-DS} \leq \sigma \\ \end{aligned}

例3:\quad \mathcal{\mu}= EX. \quad\left(X_{1}\cdots X_{n}\right)

\hat{\mu}=C_{1} X_{1}+\cdots+C_{n} X_{n}

C_{1}+C_{2}+\cdots +C_{n}=1

则 \hat\mu是\mu 的无偏估计

2. 有效性

D\left(\hat{\theta}_{1}\right) \leq D\left(\hat{\theta}_{2}\right) 方差越小越有效
例: 可以证明, D(X_i) \geq D(\bar{X}), D(a_1X_1+a_2X_2\cdots a_nX_n) \geq D(\bar{X})

3. 相合性(一致性)

\displaystyle\lim _{n \rightarrow+\infty} p(|\hat{\theta}-\theta|<\varepsilon)=1

6.3. 参数的区间估计

找两个估计量 \hat\theta_1,\hat\theta_2(\hat\theta_1 < \hat\theta_2)[\hat\theta_1,\hat\theta_2] 来估计\theta. 可靠度: 要求区间以很大的可能性包含 \theta ,即 P\{\hat\theta_1 <\theta <\hat\theta_2\}.

6.3.1. 置信区间和枢轴变量

置信区间

定义:
对于给定的 \alpha(0<\alpha<1)，如果

则称区间[\hat\theta_1,\hat\theta_2]为置信区间, 1-\alpha为置信度(置信系数),\hat\theta_1,\hat\theta_2 分别被称为置信下限和置信上限.其中 \alpha 一般取 0.05.
注意: 求置信区间, 就是找一个区间能够 “框住” \theta , 因为 \theta 虽然未知,却是确定的.

枢轴变量

I=I(T,\theta),其中,\theta 是未知的待估参数, T 是已知的与 \theta 有关的统计量, I 服从的分布 F 已知且与 \theta 无关.
给定 1-\alpha , 确定 F 的上 \frac \alpha 2 分位数 u_{\frac \alpha 2} 和上 (1-\frac \alpha 2) 分位数u_{1-\frac \alpha 2}
P\{u_{\frac \alpha 2}\leq I(T,\theta)\leq u_{\frac \alpha 2}\} = 1-\alpha, 据此可以求得置信区间.

6.3.2. 单正态总体参数的区间估计

估计 \mu

\sigma^2 已知

枢轴变量 U = \displaystyle\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1), 然后查表求得 u_\frac \alpha 2 再根据对称

求得 u_{1 - \frac \alpha 2}.

\sigma^2 未知
枢轴变量 U = \displaystyle\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)

估计 \sigma^2

\mu 已知

枢轴变量 U=\displaystyle\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} \sim \chi ^{2}(n)

\mu 未知

枢轴变量 U=\displaystyle \frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi ^{2}(n-1)

注意卡方分布图像不是对称的,所以上分位点必须求两个.

6.3.2. 双正态总体参数的区间估计

估计均值差 \mu_1-\mu_2

\sigma_1^2,\sigma_2^2 已知枢轴变量

\begin{aligned} U=\frac{(\overline{X}-\overline{Y})-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\sigma_{\mathbf{1}}^{\mathbf{2}}}{\mathbf{n}_{\mathbf{1}}}+\frac{\sigma_{\mathbf{2}}^{\mathbf{2}}}{\mathbf{n}_{\mathbf{2}}}} }\sim N(\mathbf{0}, \mathbf{1}) \end{aligned}

\sigma_1^2=\sigma_2^2=\sigma^2 未知
枢轴变量T=\displaystyle\frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\left(n_{1}-1\right) S_{1}^{2}+\left(n_{2}-1\right) S_{2}^{2}}{\left(n_{1}+n_{2}-2\right)}} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right)

估计方差比 \displaystyle{\sigma^2_1}/{\sigma^2_2}

\mu_1,\mu_2 未知
枢轴变量 \displaystyle\frac{S_{1}^{2} / \sigma_{1}^{2}}{S_{2}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1 , n_{2}-1\right)

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2020-12-27，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度