前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习26:概率图模型概述

机器学习26:概率图模型概述

作者头像
用户5473628
发布2019-08-08 15:53:15
1.2K0
发布2019-08-08 15:53:15
举报
文章被收录于专栏:MiningAlgorithmsMiningAlgorithms

概率图模型概述

概率图模型(Probabilistic Graphical Model,PGM),简称图模型(Graphical Model,GM),是指一种用图结构来描述多元随机变量之间条件独立关系的概 率模型,从而给研究高维空间中的概率模型带来了很大的便捷性。它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量之间的概率关系,即“变量关系图”。

根据边的性质不同,概率图模型可大致分为两类:一类是使用有向无环图表示变量间的依赖关系,称为有向图模型(Directed Graphical model),也称贝叶斯网(Bayesian Network),或信念网络(BeliefNetwork,BN);另一类是使用无向图表示变量间的相关关系,称为无向图模型,也称为马尔可夫随机场(Markov Random Field,MRF)或马尔可夫网(Markov Network)。

图模型有三个基本问题: 1. 表示问题:对于一个概率模型,如何通过图结构来描述变量之间的依赖关系。 2. 推断问题:在已知部分变量时,计算其它变量的后验概率分布。3. 学习问题:图模型的学习包括图结构的学习和参数的学习。在本章我们只关注在给定图结构时的参数学习,即参数估计问题。

一、模型表示:

1,有向图模型(贝叶斯网):

使用有向无环图表示变量间的关系,称为有向图模型或贝叶斯网。

贝叶斯网(Bayesian network)亦称为信念网(belief network)它借助有向无环图(DAG)来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布。

贝叶斯网络的关键方法是图模型,构建一个图模型我们需要把具有因果联系的各 个变量用箭头连在一起。贝叶斯网络的有向无环图中的节点表示随机变量。连接两个节点的箭头代表此两个随机变量是具有因果关系的,例如:p(a,b,c)=p(c|a,b)*p(b|a)*p(a)。

贝叶斯网络是模拟人的认知思维推理模式的,用一组条件概率以及有向无环图对不确定性因果推理关系建模。

1.1,sigmoid信念网络(sigmoid belief network,SBN):

1),Sigmoid信念网络:

为了减少模型参数,可以使用参数化模型来建模有向图模型中的条件概率分布。一种简单的参数化模型为sigmoid信念网络[Neal, 1992]。sigmoid信念网络中的变量取值为{0, 1}。对于变量Xk 和它的父节点集合πk,其条件概率分布表示为:

其中σ(·)是Logistic sigmoid 函数,θi 是可学习的参数。假设变量Xk 的父节点 数量为M,如果使用表格来记录条件概率需要2^M 个参数,如果使用参数化模 型只需要M+ 1个参数。如果对不同的变量的条件概率都共享使用一个参数化 模型,其参数数量又可以大幅减少。

2),Sigmoid信念网络与Logistic回归模型比较:

值得一提的是,Sigmoid信念网络与Logistic回归模型都采用Logistic 函数 来计算条件概率。如果假设Sigmoid信念网络中只有一个叶子节点,其所有的父 节点之间没有连接,且取值为实数,那么sigmoid信念网络的网络结构和Logistic 回归模型类似,如图下图所示。

但是,这两个模型区别在于Logistic回归模型中的x作为一种确定性的参数,而非变量。因此,Logistic回归模型只建模条件概率p(y|x),是一种判别模型;而sigmoid信念网络建模p(x, y),是一种生成模型。

3),深度信念网络(Deep BeliefNetwork,DBN):

深度信念网络是一种深层的概率有向图模 型,其图结构由多层的节点构成。每层节点的内部没有连接,相邻两层的节点之间为全连接。网络的最底层为可观测变量,其它层节点都为隐变量。最顶部的两层间的连接是无向的,其他层之间的连接是有向的。

下图是一个有4层结构的深度信念网络,与全连接的前馈神经网络结构相同。

对一个有L层隐变量的深度信念网络,令v=h(0)表示最底层(第0层)为 可观测变量, h(1),... ,h(L)表示其余每层的变量。顶部的两层是一个无向图,可以看做是一个受限玻尔兹曼机,用来产生p(h(L−1))的先验分布。除了最顶上两 层外,每一层变量h(l) 依赖于其上面一层h(l+1),即:

其中l ={0,... ,L−2}。

深度信念网络中所有变量的联合概率可以分解为:

其中p(h(l)|h(l+1))为Sigmoid型条件概率分布为:

其中σ(·)为按位计算的logisticsigmoid函数,a(l) 为偏置参数,W(l+1) 为权重 参数。这样,每一个层都可以看作是一个Sigmoid信念网络。

1.2,朴素贝叶斯分类器:

《机器学习21:概率图--朴素贝叶斯模型》中已有详细解释。

1.3,隐马尔可夫模型:

《机器学习23:概率图--隐马尔可夫模型(HMM)》中已有详细解释。

2,无向图模型(马尔可夫随机场):

无向图模型,也称为马尔可夫随机场(MarkovRandom Field,MRF)或 马尔可夫网络(MarkovNetwork),是一类用无向图来描述一组具有局部马尔 可夫性质的随机向量X的联合概率分布的模型。

《机器学习24:概率图--马尔可夫随机场(MRF)》中有更详细的解释。

2.1,对数线性模型(最大熵模型):

势函数一般定义为:

其中函数fc(xc)为定义在xc 上的特征向量,θc 为权重向量。于是,联合概率p(x)的对数形式为:

其中θ 代表所有势能函数中的参数θc。这种形式的无向图模型也称为对数线性模型(Log-LinearModel)或最大熵模型(MaximumEntropy Model)。

如果用对数线性模型来建模条件概率p(y|x):

其中Z(x, θ) = ∑ y exp(θTfy(x, y))。这种对数线性模型也称为条件最大熵模型 或softmax回归模型。

2.2,条件随机场:

《机器学习25:概率图--条件随机场(CRF)》中已有详细的解释。

二、推断:

概率模型提供了一种描述框架,将学习任务归结于计算变量的概率分布。在概率模型中利用已知变量推测未知变量的分布称为推断。其核心是如何基于可观测变量推断出未知变量的条件分布。

在图模型中,常用的推断方法可以分为精确推断和近似推断两类。

三、学习:

图模型的学习可以分为两部分:一是网络结构学习,即寻找最优的网络结构;二是网络参数估计,即已知网络结构,估计每个条件概率分布的参数。

网络结构学习一般比较困难,一般是由领域专家来构建;图模型的参数估计问题分为不包含隐变量时的参数估计问题和包含隐变量时的参数估计问题。作为初学者,我们首先需要掌握的是参数估计问题。

四、code:

Code:1), 贝叶斯网络-Student模型;2),sigmoid信念网络(深度信念网络); 3),最大熵模型。

代码语言:javascript
复制
# https://github.com/Jesselinux/Mining-Algorithms
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MiningAlgorithms 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档