深度学习系列笔记(四)

Marigold

发布于 2022-06-17 14:13:08

5570

发布于 2022-06-17 14:13:08

文章被收录于专栏：Marigold

深度学习系列笔记(四)

目录
深度学习系列笔记(四)
概率和信息论复习
条件概率
条件概率的链式法则
独立性和条件独立性
期望、方差和协方差
常用概率分布
Bernoulli 分布
Multinoulli 分布
高斯分布
指数分布和Laplace分布
Dirac分布和经验分布
分布的混合
常用函数的有用性质
贝叶斯规则
信息论

概率和信息论复习

条件概率

P(Y=y\mid X=x)=\tfrac{P(Y=y,X=x)}{P(X=x)}

条件概率的链式法则

任何多维随机变量的联合分布，都可以分解成只有一个变量的条件概率相乘的形式

P(x^{(1)},...,x^{(n)})=P(x^{(1)}\prod\limits_{i=2}^n P(x^{(i)}\mid x^{(1)},...,x^{(i-1)}))

独立性和条件独立性

x\perp y \forall x\in X,y\in Y, p(X=x,Y=y)=p(X=x)P(Y=y)

x\perp y \mid z \forall x\in X,y\in Y,z\in Z, p(X=x,Y=y\mid Z=z)=p(X=x\mid Z=z)P(Y=y\mid Z=z)

期望、方差和协方差

对离散型随机变量： E_{x\sim P[f(x)]}=\sum\limits_x P(x)f(x)

对连续型随机变量： E_{x\sim p[f(x)]}=\int p(x)f(x)dx

期望是线性的。

方差衡量的是当我们对x依据它的概率分布进行采样时，随机变量X的函数值会呈现多大的差异。

协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度。协方差的绝对值如果很大，则意味着变量值变化很大，并且他们同时距离各自的均值很远。

随机向量x\in R^n的协方差矩阵是一个n \times n的矩阵，满足Cov(x)_{i,j})=Cov(x_i,x_j)

协方差矩阵的对角元是方差：Cov(x_i,x_j)=Var(x_i)

常用概率分布

Bernoulli 分布

Bernoulli 分布是单个二值随机变量的分布。它由单个参数\phi \in [0,1]控制，\phi给出了随机变量等于1的概率。它具有如下性质：

P(x=1)=\phi

P(x=0)=1-\phi

P(X=x)=\phi ^x(1-\phi)^{1-x}

EX = \phi

DX=\phi(1-\phi)

Multinoulli 分布

Multinoulli 分布或者范畴分布是指具有k个不同状态的单个离散型随机变量上的分布，其中k是一个有限值。

高斯分布

N(\mu,\sigma ^2)=\sqrt{\tfrac{1}{2\pi \sigma ^2}} \exp\big({-\tfrac{1}{2\sigma ^2}}(x-\mu)^2\big)

多维正态分布 N(\mu,\Sigma)=\sqrt{\tfrac{1}{2\pi ^n \det (\Sigma)}} \exp\big({-\tfrac{1}{2}}(x-\mu)^T\beta (x-\mu)\big) 它的参数是一个正定对称矩阵\Sigma

指数分布和Laplace分布

p(\lambda)=\lambda 1_{x_\ge 0} \exp(-\lambda x)

指数分布用指示函数1_{x_\ge 0}来使得当x取负值时的概率为0.

Laplace分布： Laplace(\mu,\gamma)= \tfrac{1}{2\gamma} \exp \big({-\tfrac{|x-\mu|}{\gamma}}\big)

Dirac分布和经验分布

在一些情况下，我们希望概率分布中的左右质量都集中在一个点上，这可以通过Dirac函数\delta (x)定义概率密度函数来实现：p(x)=\delta(x-\mu)

该函数被定义成在除了0以外的所有点的值都为0，但是积分为1.该函数不想普通函数一样对x的每一个值都有一个实数值的输出，它是一种不同类型的数学对象，被称为广义函数，广义函数是依据积分性质定义的数学对象。我们可以把该函数想象成一些列函数的极限点，这一系列函数把除了0以外的所有点的概率密度越变越小。

通过把p(x)定义成\delta函数左移-\mu个单位，我们得到了一个在x=\mu处具有无限窄也无限高的峰值的概率质量。

Dirac分布经常作为经验分布的一个组成部分出现：

\widehat{p} (x)=\tfrac{1}{m}\sum\limits_{i=1}^m \delta(x-x^{(i)})

当我们在训练集上训练模型时，可以认为从这个训练集上得到的经验分布指明了采样来源的分布。关于经验分布的另外一个重要观点是，它是训练数据的似然最大的那个概率密度函数。

分布的混合

通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布。混合分布由一些组件分布构成。每次实验，样本是由哪个组件分布产生的取决于从一个Multinoulli分布中采样的结果：P(X)=\sum\limits_i P(c=i)P(X\mid c=i) 这里P(c)是对各组件的一个Multinoulli分布。

潜变量使我们不能直接观测到的变量。混合模型中的组建表示变量c就是其中一个例子。

一个非常强大且常见的混合模型是高斯混合模型，他的组件是高斯分布。除了均值和协方差以外，高斯混合模型的参数指明了给每个组件i的先验概率。高斯混合模型是概率密度的万能近似器，在这种意义下，任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。

常用函数的有用性质

logistic sigmoid

\sigma(x)=\tfrac{1}{1+\exp(-x)}

通常用来产生Bernoulli分布中的参数ϕ

sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感。

softplus

\zeta(x)=\log(1+\exp(x))可以用来产生正态分布的\beta和\sigma参数。

x^+=\max(0,x) 另一个函数的平滑形式

下面这些性质非常有用：

\sigma(x)=\tfrac{\exp(x)}{\exp(x)+\exp(0)}

\tfrac{d}{dx}\sigma(x)=\sigma(x)(1-\sigma(x))

1-\sigma(x)=\sigma(-x)

\log \sigma(x)=-\zeta(-x)

\tfrac{d}{dx}\zeta(x)=\sigma(x)

\forall x \in (0,1), \sigma ^{-1}(x)=\log(\tfrac{x}{1-x})

\forall x > 0, \zeta ^{-1}(x)=\log(\exp(x)-1)

\zeta(x)=\int\limits_{-\infty}^x \sigma(y)dy

\zeta(x)-\zeta(-x) = x

函数σ −1 (x) 在统计学中被称为分对数。

贝叶斯规则

P(X\mid Y)=\tfrac{P(X)P(Y\mid X)}{P(Y)}

通常使用 P(Y)=\sum_xP(Y\mid x)P(x)来计算，所以我们并不需要事先知道P(Y)信息。

信息论

信息论的基本想法是一个不太可能发生的事件居然发生了，要比一个非常可能发生的事件发生，能提供更多的信息。我们想要通过这种基本想法来量化信息：特别是：

非常可能发生的时间信息量要比较少，并且极端情况下，确保能发生的事件应该没有信息量
较不可能发生的事件具有更高的信息量
独立事件应具有增量的信息。

为了满足上述3个性质，我们定义一个事件X=x的自信息为：I(x)=-\log P(x)，其中\log表示自然对数。因此I(x)的单位是奈特(nats)。1奈特是以\tfrac{1}{e}的概率观测到的一个事件时获得的信息量。其它材料中使用底数为2的对数，单位是比特(bit)或者香农(shannons).

自信息只是处理单个的输出。我们可以使用香农熵来对整个概率分布中的不确定性总量进行量化:

H(X)=E_{X\sim P}[I(X)]=-E_{X\sim P}[\log P(X)]

也记作H(P)。换言之，一个分部的香农熵是指遵循这个分布的事件所产生的期望信息总量。它给出了对依据概率分布P生成的符号进行编码所需要的比特数在平均意义上的下界。

KL散度可以用来衡量一个随机变量的两个单独的概率分布。

D_{KL}(P\mid\mid Q)=E_{X\sim P}[\log \tfrac{P(x)}{Q(x)}]=E_{X\sim P}[\log P(x) - \log Q(x)]

在离散型变量的情况下，KL散度衡量的是，当我们使用一种被设计成能够使得概率分布

KL散度是非负的，KL散度为0，当且仅当P和Q在离散型变量的情况下是相同的分布，或者在连续型变量的情况下是“几乎处处”相同的。

一个和散度密切联系的量是交叉熵，H(P,Q)=H(P)+D_{KL}(P\mid\mid Q)=-E_{X\sim P}\log Q(X)

0\log 0在信息论中可以处理为 \lim _{x\to 0}xlogx=0

参考文献：《深度学习》

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2021/12/16 ，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度