http://blog.csdn.net/u011239443/article/details/78040210
概率论是用来描述不确定性的数学工具,很多机器学习算都是通过描述样本的概率相关信息或推断来构建模型;信息论最初是用来描述一个信号中包含信息的多少进行量化,在机器学习中通常利用信息论中的一些概念和结论来描述不同概率分布之间的关系。
协方差矩阵(covariance matrix)是一个 n × n 的矩阵,并且满足:
- 指数分布
Dirac delta 函数被定义成在除了 0 以外的所有点的值都为 0,但是积分为 1。Dirac delta 函数不像普通函数一样对 x 的每一个值都有一个实数值的输出,它是一种不同 类型的数学对象,被称为广义函数(generalized function),广义函数是依据积分性质定义的数学对象。我们可以把 Dirac delta 函数想成一系列函数的极限点,这一系列函数把除 0 以外的所有点的概率密度越变越小。 - Dirac 分布经常作为经验分布(empirical distribution)的一个组成部分出现:
经验分布将概率密度1/m赋给 m 个点 x (1) ,…,x (m) 中的每一个,这些点是给定的数据集或者采样的集合。
这里 P(c) 是对各组件的一个 Multinoulli 分布。 混合模型使我们能够一瞥以后会用到的一个非常重要的概念——潜变量(latent variable)。潜变量是我们不能直接观测到的随机变量。混合模型的组件标识变量 c 就是其中一个例子。潜变量在联合分布中可能和 x 有关,在这种情况下,P(x,c) = P(x | c)P(c)。潜变量的分布 P(c) 以及关联潜变量和观测变量的条件分布P(x | c),共同决定了分布 P(x) 的形状,尽管描述 P(x) 时可能并不需要潜变量。 一个非常强大且常见的混合模型是高斯混合模型(Gaussian Mixture Model),它的组件 p(x | c = i) 是高斯分布。每个组件都有各自的参数,均值 µ (i) 和协方差矩阵 Σ (i) 。
- softplus函数
某个性质如果是几乎处处都成立的,那么它在整个空间中除了一个测度为零的集合以外都是成立的。
概率图模型: 通过图的概念来表示随机变量之间的概率依赖关系: