作为序列标注算法系列文章的第一篇,我们首先看看什么是序列标注问题?
“数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。
在自然语言处理领域,语句便是序列,对其进行标注是最常见的任务之一,只要涉及对一个序列中的各个元素进行打标签的问题,都可以通过序列标注模型解决。
比如,汉语分词标注【B,M,S,E】
词性标注为,名词,动词 等
命名实体识别标注为【BA,MA,EA,BO,MO,EO,BP,MP,EP,O】
概率图模型,即在概率模型的基础上,用图的形式表达概率分布的模型
隐含马尔科夫模型 简称HMM 是将分词作为字在字串中的序列标注任务来实现的。其基本思路是:将词中的字划分为:
B-词首 M-词中 E-词尾 S-单独成词 (实际工程中构词标签会更多) 那么分词结果就可以表示成逐字标注模式。 如 : 中文/分词 中/B 文/E分/B词/E
首先,我