描述随机变量最完备的方法是写出该随机变量的概率分布。然而,正如我们在前面章节看到的,概率分布的表达往往都比较复杂,信息量很大。这如同我们购置汽车的时候,一辆汽车的全面数据可以说是海量的,比如汽车尺寸,油箱大小等等。我们选择一辆汽车时,往往只使用有限的几个具有代表性的量来代表汽车的主要特征,比如排气量,最大马力。我们信赖这几个量,因为它们可以“粗糙”的描述汽车的主要性能。这些量是汽车全面数据的一个缩影。
类似的,统计学家也设计了这样的投影系统,将全面的概率分布信息量投射到某几个量上,来代表随机变量的主要特征,从而掌握该随机变量的主要“性能”。这样的一些量称为随机变量的描述量(descriptor)。比如期望用于表示分布的中心位置,方差用于表示分布的分散程度等等。这些描述量可以迅速的传递其概率分布的一些主要信息,允许我们在深入研究之前,先对其特征有一个大概了解。
(买西瓜之前,先听听声音,可以对西瓜的成熟度有个了解。)
期望(expectation)是概率分布的一个经典描述量,它有很深的现实根源。在生活中,我们往往对未知事件有一个预期,也就是我们的期望。比如,我们会根据自己的平时成绩,来期望高考分数。现实生活中的期望可以是许多因素的混合,比如历史表现和主观因素。
代码如下:
# By Vamei
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt
rv = norm(loc=0, scale = 1)
x = np.linspace(-5, 5, 200)
plt.fill_between(x, rv.pdf(x), y2=0.0 color="coral", label="N(0,1)")
plt.axvline(x = rv.mean(), label="E(X)", linewidth=1.5, color="blue")
plt.legend()
plt.grid(True)
plt.xlim([-5, 5])
plt.ylim([-0.0, 0.5])
plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")
plt.show()
上面的代码中,rv是一个随机变量对象,调用mean()方法,可以计算该随机变量的期望值。
指数分布的期望
根据指数分布的表达式,
它的期望为:
对于
的指数分布,它的期望值为5。
可以通过编程,来计算指数分布的期望。如下图所示:
# By Vamei
from scipy.stats import expon
import numpy as np
import matplotlib.pyplot as plt
rv = expon(scale = 5)
x = np.linspace(0.0, 30, 100)
print rv.pdf(x)
plt.fill_between(x, rv.pdf(x), y2=0, color="coral", label="0.2")
plt.axvline(x = rv.mean(), label="E(X)", linewidth=1.5, color="blue")
plt.grid(True)
plt.legend()
plt.xlim([0, 25])
plt.ylim([0, 0.2])
plt.title("exponential distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")
plt.show()
期望有一些很有用的性质:
期望是随机变量分布的一个描述量,用“概率加权平均”来计算,表达随机变量的预期。