使用Python计算方差协方差相关系数

卡尔曼和玻尔兹曼谁曼

修改于 2019-02-06 07:16:12

5.7K0

修改于 2019-02-06 07:16:12

文章被收录于专栏：给永远比拿愉快

使用Python计算方差，协方差和相关系数

数学定义

期望

设随机变量X只取有限个可能值a_i (i=0, 1, ..., m)，其概率分布为P (X = a_i) = p_i. 则X的数学期望，记为E(X)或EX，定义为：

E(X) = \sum\limits_ia_ip_i

方差

设X为随机变量，分布为F，则

Var(X) = E(X-EX)^2

称为X(或分布F)的方差，其平方根\sqrt{Var(X)}称为X(或分布F)的标准差.

方差和标准差是刻画随机变量在其中心位置附近散布程度的数字特征。

注意：样本方差和总体方差的区别

统计学上对于样本方差的无偏估计使用如下公式计算：

s^2 = \frac{1}{n-1} \sum\limits_{i=1}^n(x_i -\bar{x})^2

前面有一个系数\frac{1}{n-1}，当时当样本数量很大的时候，\frac{n}{n-1}近似为1，可以直接使用总体方差公式进行计算。

协方差

协方差用来刻画两个随机变量$X, Y$之间的相关性，定义为

Cov(X, Y) = E[(X - EX)(Y-EY)]

如果协方差为正，说明X，Y同向变化，协方差越大说明同向程度越高；如果协方差为负，说明X，Y反向运动，协方差越小说明反向程度越高

协方差矩阵

协方差只能表示两个随机变量的相关程度（二维问题），对于大于二维的随机变量，可以使用协方差矩阵表示.

协方差矩阵的每一个值就是对应下标的两个随机变量的协方差

对于三维协方差矩阵，C=\begin{bmatrix}Cov(X, X) & Cov(X, Y) & Cov(X, Z) \\ Cov(Y, X) & Cov(Y, Y) & Cov(X, Y) \\ Cov(Z, X) & Cov(Z, Y) & Cov(Z, Z)\end{bmatrix}

使用NumPy包计算

import numpy as np

# 随机生成两个样本
x = np.random.randint(0, 9, 1000)
y = np.random.randint(0, 9, 1000)

# 计算平均值
mx = x.mean()
my = y.mean()

# 计算标准差
stdx = x.std()
stdy = y.std()

# 计算协方差矩阵
covxy = np.cov(x, y)
print(covxy)

# 我们可以手动进行验证
# covx等于covxy[0, 0], covy等于covxy[1, 1]
# 我们这里的计算结果应该是约等于，因为我们在计算的时候是使用的总体方差(总体方差和样本方差是稍微有点区别的)
covx = np.mean((x - x.mean()) ** 2) 
covy = np.mean((y - y.mean()) ** 2) 
print(covx)
print(covy)
# 这里计算的covxy等于上面的covxy[0, 1]和covxy[1, 0]，三者相等
covxy = np.mean((x - x.mean()) * (y - y.mean()))
print(covxy)

# 下面计算的是相关系数矩阵(和上面的协方差矩阵是类似的)
coefxy = np.corrcoef(x, y)
print(coefxy)

一组可能的输出结果：

[[6.83907508 0.10925926]
 [0.10925926 6.53390891]]
6.832236
6.527375
0.10914999999999989
[[1.         0.01634455]
 [0.01634455 1.        ]]

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018年12月18日，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度