📚 文档目录 随机事件及其概率 随机变量及其分布 期望和方差 大数定律与中心极限定理 数理统计的基本概念 参数估计 假设检验 多维 回归分析和方差分析 降维
r=\frac{1}{n-1}\sum_{i=1}^{n}\frac{(X_i-\bar X)(Y_i-\bar Y)}{s_Xs_Y}
\bar X,\bar Y 为样本均值, s_x,s_y 是样本方差.
Pearson 相关系数用于度量两个随机变量 X,Y 的线性关系. 可近似估计 \rho .
取值范围: [-1,1] , 绝对值越接近 1 , 则线性关系越强.
对称性.
原样本经过线性变换不影响 r 值.
不描述因果关系.
H_0:\rho = 0, H_1:\rho\neq 0
构造统计量:
\begin{aligned}\\ t&=\frac{r}{S_r}\sim t(n-2), S_r = \sqrt{\frac {1-r^2}{n-2} } \end{aligned}
若原假设成立, t 值应小, 所以拒绝域为 |t| > t_{\frac \alpha 2}(n-2)
对从总体 (x, Y) 中抽取的一个样本 \left(x_{1}, Y_{1}\right),\left(x_{2}, Y_{2}\right), \ldots,\left(x_{n}, Y_{n}\right) 一元线性回归模型:
\hat y = \hat \beta_0+ \hat \beta_1 x
一元线性回归要解决的问题
求 \hat \beta_0,\hat \beta_1 使 \displaystyle Q\left(\hat{\beta}_{0}, \hat{\beta}_{1}\right)=\min _{\alpha,\space \beta} Q\left(\beta_{0}, \beta_{1}\right).
其中 Q(\beta_{0},\beta_1) 是偏差平方和 \displaystyle \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)^{2}.
求导令导数为零: \begin{aligned} \frac{\partial Q}{\partial \beta_{0}} &=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)=0 \\ \frac{\partial Q}{\partial \beta_{1}} &=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right) x_{i}=0 \end{aligned}
整理一下, 得到正规方程系数行列式:
\begin{aligned} n \beta_{0}&+\left(\sum_{i=1}^{n} x_{i}\right) \beta_{1}=\sum_{i=1}^{n} y_{i} \\ \left(\sum_{i=1}^{n} x_{i}\right) \beta_{0}&+\left(\sum_{i=1}^{n} x_{i}^{2}\right) \beta_{1}=\sum_{i=1}^{n} x_{i} y_{i} \end{aligned}
记: \begin{aligned} &\bar{y}=\frac{1}{n} \sum_{i} y_{i}, \bar{x}=\frac{1}{n} \sum_{i} x_{i},& s_{x x}=\sum_{i}\left(x_{i}-\bar{x}\right)^{2} \\ &s_{x y}=\sum_{i}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right), &s_{yy }=\sum_{i}\left(y_{i}-\bar{y}\right)^{2} \end{aligned}
可以由正规方程系数行列式得到等式: \begin{array}{l} \hat{\beta}_{0}+\bar{x} \hat{\beta}_{1}=\bar{y} \\ s_{x x} \hat{\beta}_{1}=s_{x y} \end{array}
则 \beta_0,\beta_1 的最小二乘估计为 \begin{aligned} \hat{\beta}_{0}=\bar{y}-\bar{x} \hat{\beta}_{1}\\ \hat{\beta}_{1}=s_{x y} / s_{x x} \end{aligned}
由于 D(\varepsilon_i) = E(\varepsilon_i^2) = \sigma^2
想到用残差平方和估计随机误差项的方差, 经计算, \sigma^2 的无偏估计为:
s^2 = \frac 1 {n-2} \sum_{i=1}^{n}(y_i-\hat y_i)^2
用于推断两个或两个以上总体均值是否有差异的显著性检验.
对于样本:
各个样本间是独立的, 则
记
\sum_{i=1}^{r} n_{i}=n, \bar{X}_{i \bullet}=\frac{1}{n_{i}} \sum_{j=1}^{n_{i}} X_{i j}, \bar{X}=\frac{1}{n} \sum_{i=1}^{r} \sum_{j=1}^{n_{i}} X_{i j}
检验假设:
\begin{aligned}\\ &H_o: \mu_1=\mu_2=...=\mu_r\\ &H_1: \mu_1,\mu_2...\mu_r \,\text{imperfect}\, \text{equality} \end{aligned}
假设检验采用的方法: 平方和分解:
定理:
\begin{aligned}\\ \frac{(n_i-1)\cdot\frac{\sum_{j=1}^{n_i}(X_{ij}-\bar X_{i\bullet})^2}{n_i-1}}{\sigma^2}\sim \chi^2(n_i-1) \end{aligned}
卡方分布可以叠加
单因素试验方差分析表:
例: 保险公司为了解某一险种在四个不同地区索赔额情况是否存在差异。搜集了这四个不同地区一年的索赔额情况记录如表所示. 试判断在四个不同地区索赔额有无显著的差异?
求得置信区间, 若置信区间包含零, 则认为没有显著差异.
略
略
仅有一个例子
A,B,C 下每个单元格内容为该因素的水平.
找到所有该因素对应水平下的试验指标, 求和填入. 可知 A 因素影响最为显著, C 最不显著. 最佳组合为 A:3, B:1, C:1