揭秘马尔可夫模型神秘面纱1

机器学习和自然语言处理

公众号ID:datathinks

1 初识马尔可夫

马尔可夫个人简介

安德烈·马尔可夫,俄罗斯人,物理-数学博士,圣彼得堡科学院院士,彼得堡数学学派的代表人物,以数论和概率论方面的工作著称,他的主要著作有《概率演算》等。1878年,荣获金质奖章,1905年被授予功勋教授称号。马尔可夫是彼得堡数学学派的代表人物。以数论和概率论方面的工作著称。他的主要著作有《概率演算》等。在数论方面,他研究了连分数和二次不定式理论 ,解决了许多难题 。在概率论中,他发展了矩阵法,扩大了大数律和中心极限定理的应用范围。马尔可夫最重要的工作是在1906~1912年间,提出并研究了一种能用数学分析方法研究自然过程的一般图式——马尔可夫链。同时开创了对一种无后效性的随机过程——马尔可夫过程的研究。马尔可夫经多次观察试验发现,一个系统的状态转换过程中第n次转换获得的状态常取决于前一次(第(n-1)次)试验的结果。马尔可夫进行深入研究后指出:对于一个系统,由一个状态转至另一个状态的转换过程中,存在着转移概率,并且这种转移概率可以依据其紧接的前一种状态推算出来,与该系统的原始状态和此次转移前的马尔可夫过程无关。马尔可夫链理论与方法在现代已经被广泛应用于自然科学、工程技术和公用事业中。

马尔可夫模型在处理序列分类时具体强大的功能,诸如:词类标注、语音识别、句子切分、字素音位转换、局部句法剖析、语块分析、命名实体识别、信息抽取等。另外广泛应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。

2 马尔可夫链

马尔科夫链的基本概念

序列分类器:序列分类器或序列标号器是给序列中的某个单元指派类或者标号的模型。马尔可夫模型(又叫显马尔可夫模型VMM)和隐马尔可夫模型(HMM)都是序列分类器。诸如:词类标注、语音识别、句子切分、字素音位转换、局部句法剖析、语块分析、命名实体识别、信息抽取都属于序列分类。

【随机过程的两层含义】

  • 随机过程是一个时间函数,其随着时间变化而变化
  • 随机过程的每个时刻上函数值是不确定的、随机的,即每个时刻上函数值按照一定的概率进行分布。

独立链:随机过程中各个语言符合或者词是独立的,不相互影响,则称这种链是独立链。反之,各语言词或者符号彼此有关则是非独立链。

等概率独立链与非等概率独立链:在独立链中,各个语言符合或者词是等概率出现的是等概率独立链,各个语言词或者语言符号是非等概率出现的则为非等概率链。

【马尔可夫链】

马尔可夫过程:在独立链中,前面语言符号对后面的语言符号无影响,是无记忆没有后效的随机过程,在已知当前状态下,过程的未来状态与它的过去状态无关,这种形式就是马尔可夫过程。

马尔可夫链:在随机过程中,每个语言符号的出现概率不相互独立,每个随机试验的当前状态依赖于此前状态,这种链就是马尔可夫链。

链的解析:也可以当做一种观察序列,诸如:“2016年是建党95周年”,就可以看着一个字符串链。其中如上字符串中每个字符出现是随机的,其他如果每个字出现是独立的就是独立链,如果每个字符出现有前面字符相关,即不独立具有依赖性则为马尔科夫链。

N元马尔科夫链

考虑前一个语言符号对后一个语言符号出现概率的影响,这样得出的语言成分的链叫做一重马尔可夫链,也是二元语法。

考虑前两个语言符号对后一个语言符号出现概率的影响,这样得出的语言成分的链叫做二重马尔可夫链,也是三元语法。

考虑前三个语言符号对后一个语言符号出现概率的影响,这样得出的语言成分的链叫做三重马尔可夫链,也是四元语法。

类似的,考虑前(4,5,….,N-1)个语言符号对后一个语言符号出现概率的影响,这样得出的语言成分的链叫做(4,5,….,N-1)重马尔可夫链,也是(5,6,….,N)元语法。

马尔科夫链在数学上描述了自然语言句子的生成过程,是一个早期的自然语言形式的模型,后来N元语法的研究,都是建立在马尔科夫模型的基础上,马尔科夫链也就是显性的马尔科夫模型,马尔科夫链和隐马尔科夫模型都是有限自动机(状态集合状态之间的转移集)的扩充。

加权有限状态机:加权有限状态机中每个弧与一个概率有关,这个概率说明通过这个弧的可能性,且某一个点出发的弧具有归一化的性质,即某点出发的弧概率之和为1。

注意:马尔科夫链不能表示固有歧义的问题,当概率指派给没有歧义时,马尔科夫链才有用。

马尔可夫链描述

  • 具有初始状态和终结状态的马尔科夫链描述如下:
  • 没有初始状态和终结状态的马尔科夫链描述如下:

在一个一阶马尔可夫链中,我们假设一个特定的概率只与它前面一个状态有关,马尔可夫假设可以表示如下:

从一个状态i出发的所有弧的概率之和为1,即:

3

马尔可夫链应用实例

无初始状态和终结状态下,天气事件:

(1)hot hot hot hot

(2)cold hot cold hot

的马尔科夫链的序列概率:

(1) hot hot hot hot =0.5*0.5*0.5*0.5=0.0625

(2) cold hot cold hot=0.3*0.2*0.2*0.2=0.0024

如上概率差别告诉我们用马尔科夫链编码实现世界天气事实是什么?天气事件的概率可以直接观察到。

4

参考文献

  1. 统计自然语言处理基础 Christopher.Manning等 著 宛春法等 译
  2. 自然语言处理简明教程 冯志伟 著
  3. 数学之美 吴军 著
  4. Viterbi算法分析文章 王亚强

文末:文章来源机器学习和自然语言处理(ID:datathinks),作者:机器学习和自然语言处理。本公众号旨在技术传播与分享,未经授权不能转载发布。

原文发布于微信公众号 - 机器学习和自然语言处理(datathinks)

原文发表时间:2017-09-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习之tensorflow实战篇

R语言之主成分分析-PCA 贡献率

1、关键点 综述:主成分分析 因子分析典型相关分析,三种方法的共同点主要是用来对数据降维处理的 从数据中提取某些公共部分,然后对这些公共部分进行分析和处理。 ...

6178
来自专栏大数据文摘

21副GIF动图让你了解各种数学概念

1995
来自专栏AI研习社

限制玻尔兹曼机 - 深度学习之父 Geoffrey Hinton 的神经网络第 12 课(中文字幕)

作为深度学习祖师,Geoffrey Hinton 的每一句每一言,都使学习者如奉纶音。浓缩其毕生所学的《Neutral Network for Machine ...

3654
来自专栏机器学习算法与Python学习

干货 | 自然语言处理(3)之词频-逆文本词频(TF-IDF)详解

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前言 在()中讲到在文本挖掘预处理中...

4655
来自专栏PPV课数据科学社区

21副GIF动图让你了解各种数学概念

“让我们面对它;总的来说数学是不容易的,但当你征服了问题,并达到新的理解高度,这就是它给你的回报。” ——Danica McKellar 数学是很难的学科,但因...

3304
来自专栏大数据挖掘DT机器学习

机器学习有很多关于核函数的说法,核函数的定义和作用是什么?

作者:蓦风 链接:https://www.zhihu.com/question/30371867/answer/73508853 机器学习,具体以RBF网络里...

4725
来自专栏Python中文社区

用 Python 分析《红楼梦》(2)

專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer...

4615
来自专栏大数据挖掘DT机器学习

用keras对国产剧评论文本的情感进行预测

RNN即循环神经网络,其主要用途是处理和预测序列数据。在CNN中,神经网络层间采用全连接的方式连接,但层内节点之间却无连接。RNN为了处理序列数据,层内节点的输...

4565
来自专栏专知

概率论之概念解析:边缘化(Marginalisation)

【导读】前不久,专知内容组为大家整理了数据科学家Jonny Brooks-Bartlett的系列博客(包括概率论引言、极大似然估计、贝叶斯参数估计等),引起不错...

9175
来自专栏大数据挖掘DT机器学习

【LDA数学八卦-1】神奇的Gamma函数

1. 神奇的Gamma函数 1.1 Gamma 函数诞生记 学高等数学的时候,我们都学习过如下一个长相有点奇特的Gamma函数 Γ(x)=∫∞0tx−1e−t...

5355

扫码关注云+社区

领取腾讯云代金券