P(Y=y\mid X=x)=\tfrac{P(Y=y,X=x)}{P(X=x)}
任何多维随机变量的联合分布,都可以分解成只有一个变量的条件概率相乘的形式
P(x^{(1)},...,x^{(n)})=P(x^{(1)}\prod\limits_{i=2}^n P(x^{(i)}\mid x^{(1)},...,x^{(i-1)}))
x\perp y \forall x\in X,y\in Y, p(X=x,Y=y)=p(X=x)P(Y=y)
x\perp y \mid z \forall x\in X,y\in Y,z\in Z, p(X=x,Y=y\mid Z=z)=p(X=x\mid Z=z)P(Y=y\mid Z=z)
对离散型随机变量: E_{x\sim P[f(x)]}=\sum\limits_x P(x)f(x)
对连续型随机变量: E_{x\sim p[f(x)]}=\int p(x)f(x)dx
期望是线性的。
方差衡量的是当我们对x依据它的概率分布进行采样时,随机变量X的函数值会呈现多大的差异。
协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度。协方差的绝对值如果很大,则意味着变量值变化很大,并且他们同时距离各自的均值很远。
随机向量x\in R^n的协方差矩阵是一个n \times n的矩阵,满足Cov(x)_{i,j})=Cov(x_i,x_j)
协方差矩阵的对角元是方差:Cov(x_i,x_j)=Var(x_i)
Bernoulli 分布是单个二值随机变量的分布。它由单个参数\phi \in [0,1]控制,\phi给出了随机变量等于1的概率。它具有如下性质:
Multinoulli 分布或者范畴分布是指具有k个不同状态的单个离散型随机变量上的分布,其中k是一个有限值。
多维正态分布 N(\mu,\Sigma)=\sqrt{\tfrac{1}{2\pi ^n \det (\Sigma)}} \exp\big({-\tfrac{1}{2}}(x-\mu)^T\beta (x-\mu)\big) 它的参数是一个正定对称矩阵\Sigma
p(\lambda)=\lambda 1_{x_\ge 0} \exp(-\lambda x)
指数分布用指示函数1_{x_\ge 0}来使得当x取负值时的概率为0.
Laplace分布: Laplace(\mu,\gamma)= \tfrac{1}{2\gamma} \exp \big({-\tfrac{|x-\mu|}{\gamma}}\big)
在一些情况下,我们希望概率分布中的左右质量都集中在一个点上,这可以通过Dirac函数\delta (x)定义概率密度函数来实现:p(x)=\delta(x-\mu)
该函数被定义成在除了0以外的所有点的值都为0,但是积分为1.该函数不想普通函数一样对x的每一个值都有一个实数值的输出,它是一种不同类型的数学对象,被称为广义函数,广义函数是依据积分性质定义的数学对象。我们可以把该函数想象成一些列函数的极限点,这一系列函数把除了0以外的所有点的概率密度越变越小。
通过把p(x)定义成\delta函数左移-\mu个单位,我们得到了一个在x=\mu处具有无限窄也无限高的峰值的概率质量。
Dirac分布经常作为经验分布的一个组成部分出现:
当我们在训练集上训练模型时,可以认为从这个训练集上得到的经验分布指明了采样来源的分布。关于经验分布的另外一个重要观点是,它是训练数据的似然最大的那个概率密度函数。
通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布。混合分布由一些组件分布构成。每次实验,样本是由哪个组件分布产生的取决于从一个Multinoulli分布中采样的结果:P(X)=\sum\limits_i P(c=i)P(X\mid c=i) 这里P(c)是对各组件的一个Multinoulli分布。
潜变量使我们不能直接观测到的变量。混合模型中的组建表示变量c就是其中一个例子。
一个非常强大且常见的混合模型是高斯混合模型,他的组件是高斯分布。除了均值和协方差以外,高斯混合模型的参数指明了给每个组件i的先验概率。高斯混合模型是概率密度的万能近似器,在这种意义下,任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。
通常用来产生Bernoulli分布中的参数ϕ
sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感。
\zeta(x)=\log(1+\exp(x))可以用来产生正态分布的\beta和\sigma参数。
x^+=\max(0,x) 另一个函数的平滑形式
下面这些性质非常有用:
函数σ −1 (x) 在统计学中被称为分对数。
通常使用 P(Y)=\sum_xP(Y\mid x)P(x)来计算,所以我们并不需要事先知道P(Y)信息。
信息论的基本想法是一个不太可能发生的事件居然发生了,要比一个非常可能发生的事件发生,能提供更多的信息。我们想要通过这种基本想法来量化信息:特别是:
为了满足上述3个性质,我们定义一个事件X=x的自信息为:I(x)=-\log P(x),其中\log表示自然对数。因此I(x)的单位是奈特(nats)。1奈特是以\tfrac{1}{e}的概率观测到的一个事件时获得的信息量。其它材料中使用底数为2的对数,单位是比特(bit)或者香农(shannons).
自信息只是处理单个的输出。我们可以使用香农熵来对整个概率分布中的不确定性总量进行量化:
也记作H(P)。换言之,一个分部的香农熵是指遵循这个分布的事件所产生的期望信息总量。它给出了对依据概率分布P生成的符号进行编码所需要的比特数在平均意义上的下界。
KL散度可以用来衡量一个随机变量的两个单独的概率分布。
在离散型变量的情况下,KL散度衡量的是,当我们使用一种被设计成能够使得概率分布
KL散度是非负的,KL散度为0,当且仅当P和Q在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的。
一个和散度密切联系的量是交叉熵,H(P,Q)=H(P)+D_{KL}(P\mid\mid Q)=-E_{X\sim P}\log Q(X)
0\log 0在信息论中可以处理为 \lim _{x\to 0}xlogx=0
参考文献: 《深度学习》