理解隐马尔可夫模型

隐马尔可夫模型(Hidden Markov Model,简称HMM)由Baum等人在1966年提出[1],是一种概率图模型,用于解决序列预测问题,可以对序列数据中的上下文信息建模。所谓概率图模型,指用图为相互依赖的一组随机变量进行建模,图的顶点为随机变量,边为变量之间的概率关系。

在隐马尔可夫模型中,有两种类型的节点,分别为观测值序列与状态值序列,后者是不可见的,它们的值需要通过从观测值序列进行推断而得到。很多现实应用可以抽象为此类问题,如语音识别,自然语言处理中的分词、词性标注,计算机视觉中的动作识别。隐马尔可夫模型在这些问题中得到了成功的应用。本文作为已经出版的《机器学习与应用》,清华大学出版社,雷明著第16章“循环神经网络”中隐马尔可夫模型一节的扩充,已经被独立成一章,在第二版中出版。为降低阅读与理解难度,本文尽量不过多涉及概率图模型的概念,而是从序列建模的角度对HMM进行解释。

马尔可夫过程与马尔可夫模型

马尔可夫过程是随机过程的典型代表。所谓随机过程,是指一个系统的状态随着时间线随机的演化。这种模型可以计算出系统每一时刻处于各种状态的概率以及这些状态之间的转移概率。首先定义状态的概念,在t时刻系统的状态为Zt,在这里是一个离散型随机变量,取值来自一个有限集:

例如我们要为天气进行建模,需观察每一天的天气,则状态集为:

为简化表示,将状态用整数编号,可以写成:

1时刻开始到T时刻为止,系统所有时刻的状态值构成一个随机变量序列:

系统在不同时刻可以处于同一种状态,但在任一时刻只能有一种状态。不同时刻的状态之间是有关系的。例如,如果今天是阴天,明天下雨的可能性会更大,在时刻t的状态由它之前时刻的状态决定,可以表示为如下的条件概率:

即在从1t-1时刻系统的状态值分别为Z1,...,Zt-1的前提下,时刻t系统的状态为Zt的概率。如果要考虑之前所有时刻的状态计算太复杂。为此进行简化,假设t时刻的状态只与t-1时刻的状态有关,与更早的时刻无关,即忘记了更早的信息。上面的概率可以简化为

该假设称为一阶马尔可夫假设,满足这一假设的马尔可夫模型称为一阶马尔可夫模型。如果状态有n种取值,在t时刻取任何一个值与t-1时刻取任何一个值的条件概率构成一个n×n的矩阵A,称为状态转移概率矩阵,其元素为

该值表示t-1时刻的状态为it时刻的状态为j,即从状态i转移到状态j的概率。如果知道了状态转移矩阵,就可以计算出任意时刻系统状态取每个值的概率。状态转移概率矩阵的元素必须满足如下约束:

第一条是因为概率值必须在[0,1]之间,第二条是因为无论t时刻的状态值是什么,在下一个时刻一定会转向n个状态中的一个,因此它们的转移概率和必须为1。以天气为例,假设状态转移矩阵为

其对应的状态转移图(状态机)如下图所示,图中每个顶点表示状态,边表示状态转移概率,是有向图

有一个需要考虑的问题是系统初始时刻处于何种状态,这同样是随机的,可以用向量π表示。以天气为例,假设初始时处于晴天的概率是0.5,处于阴天的概率是0.4,处于雨天的概率是0.1,则π

为简化表述,引入一个特殊的状态s0 消掉π,该状态的编号为0。它是系统初始时所处的状态,即z0 = s0,在接下来的时刻从它转向其他状态,但在后续任何时刻都不会再进入此状态。加入初始状态之后,对状态转移矩阵也进行扩充,行和列的下标变为从0开始。以天气问题为例,扩充后的状态转移矩阵为

给定一阶马尔可夫过程的参数,由该模型产生一个状态序列Z1,...,ZT的概率为

结果就是状态转移矩阵的元素乘积。在这里假设任何一个时刻的状态转移矩阵都是相同的,即状态转移矩阵与时刻无关。

对于上面的天气问题,连续3天全部为晴天的概率为

状态转移矩阵通过训练样本学习得到,采用最大似然估计。给定一个状态序列z,马尔可夫过程的对数似然函数为

这里使用了指示变量来方便表述。因为状态转移矩阵要满足上面的两条约束,因此要求解的是如下带约束的最优化问题

由于对数函数的定义域要求自变量大于0,因此可以去掉不等式约束,上面的最优化问题变成带等式约束的优化问题,可以用拉格朗日乘数法求解。构造拉格朗日乘子函数

对aij 求偏导数并令导数为0,可以到得

解得

对ai 求偏导数并令导数为0,可以得到

将aij 代入上式可以得到

解得

合并后得到下面的结果

这一结果也符合我们的直观认识:从i状态转移到j状态的概率估计值就是在训练样本中,从i状态转移到j状态的次数除以从状态转移到下一个状态的总次数。对于多个状态序列,方法与单个状态序列相同。

隐马尔可夫模型

在实际应用中,有些时候我们不能直接观察到状态的值,即状态的值是隐含的,只能得到观测的值。为此对马尔可夫模型进行扩充,得到隐马尔可夫模型。

隐马尔可夫模型描述了观测变量和状态变量之间的概率关系。与马尔可夫模型相比,隐马尔可夫模型不仅对状态建模,而且对观测值建模。不同时刻的状态值之间,同一时刻的状态值和观测值之间,都存在概率关系。

首先定义观测序列

这是直接能观察或者计算得到的值。任一时刻的观测值来自有限的观测集

接下来定义状态序列

任一时刻的状态值也来自有限的状态集

这与马尔可夫模型中的状态定义相同。在这里,状态是因,观测是果,即因为处于某种状态所以才有某一观测值。

例如,如果我们要识别视频中的动作,状态就是要识别的动作,有站立、坐下、行走等取值,在进行识别之前无法得到其值。观测是能直接得到的值如人体各个关节点的坐标,隐马尔可夫模型的作用是通过观测值推断出状态值,即识别出动作。

除之前已定义的状态转移矩阵之外,再定义观测矩阵B,其元素为

该值表示t时刻状态值为si时观测值vj 为的概率。显然该矩阵也要满足和状态转移矩阵同样的约束条件:

另外还要给出初始时状态取每种值的概率π。隐马尔可夫模型可以表示为一个五元组

如果加上初始状态则可以消掉参数π,只剩下AB。在实际应用中,一般假设矩阵AB在任何时刻都是相同的即与时间无关,这样简化了问题的计算。

任意一个状态序列可以看做是这样产生的:系统在1时刻处于状态z1,在该状态下得到观测值x1 。接下来从z1转移到z2 ,并在此状态下得到观测值x2 。以此类推,得到整个观测序列。由于每一时刻的观测值只依赖于本时刻的状态值,因此在状态序列z下出现观测序列的概率x

这就是所有时刻的状态转移概率,观测概率的乘积。

以天气问题为例,假设我们不知道每天的天气,但能观察到一个人在各种天气下的活动,根据这一现象来推断天气。这里的活动有3种情况,睡觉,跑步,逛街。对于这个问题,天气是状态值,活动是观测值。该隐马尔可夫模型如下图所示

这一问题的观测矩阵为

在隐马尔可夫模型中,隐藏状态和观测值的数量是根据实际问题人工设定的;状态转移矩阵和混淆矩阵通过样本学习得到。隐马尔可夫模型需要解决以下三个问题:

1.估值问题,给定隐马尔可夫模型的参数AB,计算一个观测序列出现的概率值p(x)。

2.解码问题,给定隐马尔可夫模型的参数AB以及一个观测序列x,计算最有可能产生此观测序列的状态序列z

3.学习问题,给定隐马尔可夫模型的结构,但参数未知,给定一组训练样本,确定隐马尔可夫模型的参数AB

按照定义,隐马尔可夫模型对条件概率p(x|z)建模,因此是一种生成模型。

中文分词问题

下面以中文分词问题为例,介绍隐马尔可夫模型如何用于实际问题,这是典型的序列标注问题。中文分词即断句,是自然语言处理中的核心、基础问题。因为中文和英文不同,各个词之间没有空格隔开。对于下面的句子

我是中国人

正确的分词结果为

我 是 中国人

在这里观测序列是输入的语句,每个字为每个时刻的观测值。状态序列为分词的结果,每个时刻的状态值有如下几种情况

其中B表示当前字为一个词的开始,M表示当前字是一个词的中间位置,E表示当前字是一个词的结尾,S表示单字词。则上面这个句子的分词标注结果为

我/S 是/S 中/B 国/M 人/E

显然,得到了这个标注结果,我们就可以得到分词结果,做法很简单:

遇到S,则为一个单字词;遇到B,则为一个词的开始,直到遇到下一个E,则为一个词的结尾。

分词问题为给定观测序列,计算出概率最大的状态序列,对应的就是分词的结果。这通过解码算法实现。隐马尔可夫模型的参数则通过用语料库训练得到。下图是分词的隐马尔可夫模型按时间线展开后的结果

对于中文分词,词性标注等问题,在《机器学习与应用》中有详细的讲解,包括如何用循环神经网络解决此问题,感兴趣的读者可以进一步阅读。

估值问题

估值问题需要计算隐马尔可夫模型产生一个观测序列x={x1, ..., xT}的概率。因为任意一种状态序列取值都可能会导致出现此观测序列,根据全概率公式,其值为

上式列举所有可能的状态序列,以及该状态序列产生此观测序列的概率,要对nT 项求和。因为每一时刻的状态取值有n种可能,因此长度为T的状态序列总共有nT 种可能。下图展示了这一过程

已经推导过,任意一个状态序列出现的概率为

由于每一时刻的观测值只依赖于本时刻的状态值,因此有

产生一个观测序列的概率为

直接计算这个值的复杂度是O(nT T)。显然上面的公式有很多重复计算。例如要计算产生观测序列(x1,...,x5)的概率,产生它的状态序列为(z1,...,z5),假设状态取值有3种情况。无论z5取什么值,为了计算整个序列出现的概率,任何一个长度为4的子序列(z1,...,z4)产生观测子序列(x1,...,x4)的概率都要被重复计算3次。利用这一特点可以使用动态规划算法高效求解。

假设已经计算出了长度为t-1的观测序列的概率,现在要计算长度为t的观测序列的概率。如果状态的取值有n种可能,则zt的取值有n种可能。定义变量

这个变量是到时刻t为止的观测序列,产生它的状态序列中,最后一个状态为i,即zt = i的概率。因此有

根据定义可以得到这个变量的递归计算公式

由此得到计算观测序列概率的高效算法。

上面算法的时间复杂度为O(n2 T),这比之前大为减少。此算法称为前向算法,也可以实现后向算法,即从后向前计算。这需要定义变量β然后反向递推计算,原理与前向算法相同。

下面给出前向算法的直观解释。如果将状态序列所有时刻的路径展开,可以形成如下图所示的树结构

前向变量是对上图中以某一节点为根的子树中所有路径求和的结果。在上图中在3时刻的值z3经过值a的所有路径构成的子树以蓝色表示,这一子树求和的结果即为aa(3)。只要得到所有子树的求和结果,通过递推可以得到以它们的父节点为根的子树的结果。

解码问题

解码问题指已知一个观测序列,寻找出最有可能产生它的状态序列,这是实际应用时最常见的问题。根据贝叶斯公式,解码问题可以形式化的定义为如下最大后验概率问题

和贝叶斯分类器相同,忽略掉分母,因为它对所有状态序列是相同的。贝叶斯分类器是已知特征向量计算类后验概率,这里是已知观测序列反算状态序列的条件概率。

最简单的方法是列举所有可能的状态序列,然后计算它们产生该观测序列的概率,找出概率最大的那个。但这是没有必要的,通过使用动态规划算法,可以高效的解决此问题。动态规划求解最优路径时的核心结论是:要保证一个解是全局最优解,其部分解也必须是最优的。根据这一结论,可以得到经典的维特比(Viterbi)算法。

要保证p(x1,...,xT,z1,...,zT)的概率最大,就需要保证p(x1,...,xT-1,z1,...,zT-1)的概率最大,这相当于寻找一条产生最大概率的路径,这条路径对应着一个状态序列。这和前面的前向算法类似,只要把求和换成求最大值即可。

如果整体路径是最优的,那么子路径也是最优的。假设概率最大的路径是(z1,...,zT),在t时刻经过的节点为zTt,路径序列zt,...,zT 必须是最优的。假设它不是最优的,则存在另外一个序列zt,...,zT 的概率值更大,这与(z1,...,zT )是最优解矛盾。下图是维特比算法求解的示意图

上图中最优路径用加粗线表示。如果得到了1时刻到3时刻的最优路径,根据递推公式可以得到更长的序列的最优路径。

基于这个思想,从1时刻开始,递推的计算t时刻状态zt = i的子序列的最大概率路径,最后就可以得到整个问题的最优解。这一过程与前向算法、后向算法类似,区别在于是求极大值而不是求和。定义如下变量

即产生观测序列(x1,...,xt)的所有状态序列(z1,...,zt)中,t时刻的状态zt = i的概率的最大值。根据它的定义,可以得到递推计算公式

最后可以得到产生观测序列的最大概率为

上面的定义只能得到最大概率,但要求解的得到这个最大概率的状态序列,为此定义下面的变量记住这个最优路径

t时刻的状态zt = i 概率最大的状态序列中,t-1时刻的状态值。有了这两个变量,就可以得到维特比算法。

在算法实现时,需要存储所有的βt (i),而只用存储当前步的αt (i)。这个算法的时间复杂度为O(nT)。

训练算法

训练时给定一组样本,确定状态转移矩阵和观测矩阵。目标是状态转移矩阵和观测矩阵能很好的解释这组样本,通过最大似然估计实现。如果已知训练样本集中每个观测序列对应的状态序列,则可以直接根据最大似然估计得到模型参数,具体方法已经介绍,不同的是增加了观测矩阵。

下面考虑第二种情况,训练样本集只有观测值而没有状态值。假设有l个训练样本,第i个样本的观测序列为xi ,其对应的状态序列为zi ,序列长度为Tzi 未知,计算xi 的边缘概率时要对其所有可能的取值求和。假设状态集的大小为n,观测集的大小为m。为简化表述,考虑对单个样本的情况,对数似然函数为

这里含有隐变量(状态变量),因此需要用EM算法求解。EM算法的详细原理在SIGAI之前的公众号文章“理解EM算法”以及《机器学习与应用》一书中有详细的讲解。

按照EM算法框架,在E步根据参数AB的当前估计值计算隐变量z的条件概率

在M步计算数学期望,构造下界函数

在这里lnQ(z)是与AB无关的常数,可以忽略。由于状态转移矩阵和观测矩阵满足等式约束,构造拉格朗日乘子函数

aij求偏导数并令其为0,可以得到

解得

bjk求偏导数并令其为0,可以得到

解得

μi 求偏导数,并令其为0,可以得到

解得

vj 求偏导数,并令其为0,可以得到

解得

μivj 的值分别代入aijbjk的解,可以得到

但上面两个值直接计算的成本太高,状态序列z的所有可能取值有nT种。这一问题可用估值问题中使用的技巧解决,递推的计算这两个值。

类似的有

因此有

用同样的方法可以计算出bjk。由此得到求解隐马尔可夫模型训练问题的Baum-Welch算法。

用随机数初始化矩阵AB的元素,矩阵元素要满足等式约束条件

参考文献

[1] Baum, L. E., Petrie, T. Statistical Inference for Probabilistic Functions of Finite State Markov Chains. The Annals of Mathematical Statistics. 37 (6): 1554–1563. 1966.

[2] Baum, L. E., Eagon, J. A. An inequality with applications to statistical estimation for probabilistic functions of Markov processes and to a model for ecology. Bulletin of the American Mathematical Society. 73 (3): 360. 1967.

[3] Baum, L. E., Petrie, T., Soules, G., Weiss, N. A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains. The Annals of Mathematical Statistics. 41: 164. 1970

[4] Baum, L.E. An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of a Markov Process. Inequalities. 3: 1–8. 1972.

[5] Lawrence R. Rabiner. A tutorial on Hidden Markov Models and selected applications in speech recognition. Proceedings of the IEEE. 77 (2): 257–286. 1989.

原文发布于微信公众号 - SIGAI(SIGAICN)

原文发表时间:2019-02-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券