前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >概率论基础 - 4 - 协方差、相关系数、协方差矩阵

概率论基础 - 4 - 协方差、相关系数、协方差矩阵

作者头像
为为为什么
发布2022-08-05 12:58:39
1.1K0
发布2022-08-05 12:58:39
举报
文章被收录于专栏:又见苍岚又见苍岚

本文介绍协方差。

协方差

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 —— 百度百科

定义
  • 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
  • 期望值分别为E[X]E[Y] 的两个实随机变量XY 之间的**协方差Cov(X,Y) 定义为:

相关系数
  • 定义随机变量XY 的相关系数:
\rho_{X Y}=\frac{\operatorname{Cov}[X, Y]}{\sqrt{\operatorname{Var}[X]} \sqrt{\operatorname{Var}[Y]}}
  • 相关系数是协方差的归一化
与方差的关系
  • 由定义可知:

协方差的性质
  • 为常数,有:
\operatorname{Cov}[a X, b Y]=a b \operatorname{Cov}[X, Y]
  • 变量和的协方差:
\operatorname{Cov}\left[X_{1}+X_{2}, Y\right]=\operatorname{Cov}\left[X_{1}, Y\right]+\operatorname{Cov}\left[X_{2}, Y\right]
  • 连续变量的协方差:
\operatorname{Cov}[f(X), g(Y)]=\mathbb{E}[(f(X)-\mathbb{E}[f(X)])(g(Y)-\mathbb{E}[g(Y)])]
  • 连续变量的协方差系数:
\rho[f(X), g(Y)]=\frac{\operatorname{Cov}[f(X), g(Y)]}{\sqrt{\operatorname{Var}[f(X)]} \sqrt{\operatorname{Var}[g(Y)]}}
协方差的物理意义
  • 协方差的绝对值越大,说明两个随机变量都远离它们的均值
  • 协方差为正,则说明两个随机变量同时趋向于取较大的值或者同时趋向于取较小的值
  • 协方差为负,则说明一个随变量趋向于取较大的值,另一个随机变量趋向于取较小的值
  • 。定义随机变量 的概率分布函数为:
P(S=1)=\frac{1}{2} P(S=-1)=\frac{1}{2}

定义随机变量 是非独立的,但是有:

Cov[X,Y]=0
相关系数的物理意义

考虑以随机变量X 的线性函数a+bX 来近似表示Y

  • 均方误差,e 为:

  • e取极小值,该优化问题为凸优化,直接求导为0即可:

  • 解得:

  • 带入e 得:
\min (e)=\mathbb{E}\left[\left(Y-\left(a_{0}+b_{0} X\right)\right)^{2}\right]=\left(1-\rho_{X Y}^{2}\right) \operatorname{Var}[Y]
  • 因此有以下定理: \left|\rho_{X Y}\right| \leq 1 |\rho_{X Y}| = 1 的充要条件为:存在常数a,b 使得Y=a+bX
  • \left|\rho_{X Y}\right| 较大时, e 较小,意味着随机变量XY 联系较紧密。于是\rho_{X Y} 是一个表征 XY 之间线性关系紧密程度的量
  • \rho_{X Y}=0 时,称XY 不相关。 不相关是就线性关系来讲的,而相互独立是一般关系而言的。 相互独立一定不相关;不相关则未必独立。

协方差矩阵

  • n 维随机变量(X_1,X_2, \dots,X_n) 的二阶混合中心矩
c_{i j}=\operatorname{Cov}\left[X_{i}, X_{j}\right]=\mathbb{E}\left[\left(X_{i}-\mathbb{E}\left[X_{i}\right]\right)\left(X_{j}-\mathbb{E}\left[X_{j}\right]\right)\right]
  • 都存在,则称矩阵:

  • n 维随机变量(X_1,X_2, \dots,X_n) 的协方差矩阵
  • 由于c_{ij} = c_{ji} 因此协方差矩阵是对称阵
  • 由于对角线为各个变量的方差,因此对角线非负
  • 通常n 维随机变量的分布是不知道的,或者太复杂以致数学上不容易处理,因此实际中协方差矩阵非常重要。

参考资料

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021年3月27日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 协方差
    • 定义
      • 相关系数
        • 与方差的关系
          • 协方差的性质
            • 协方差的物理意义
              • 相关系数的物理意义
              • 协方差矩阵
              • 参考资料
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档