首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 分词算法原理(HMM)

《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 分词算法原理(HMM)

作者头像
流川疯
发布2020-08-10 14:27:02
5990
发布2020-08-10 14:27:02
举报

文章大纲

  • 序列标注
  • 概率图模型
  • 隐马尔可夫模型(Hidden Markov Model,HMM)
  • 维特比算法
  • 参考文献

序列标注

作为序列标注算法系列文章的第一篇,我们首先看看什么是序列标注问题?

“数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。

在自然语言处理领域,语句便是序列,对其进行标注是最常见的任务之一,只要涉及对一个序列中的各个元素进行打标签的问题,都可以通过序列标注模型解决。

比如,汉语分词标注【B,M,S,E】

词性标注为,名词,动词 等

命名实体识别标注为【BA,MA,EA,BO,MO,EO,BP,MP,EP,O】


概率图模型

概率图模型,即在概率模型的基础上,用图的形式表达概率分布的模型


隐马尔可夫模型(Hidden Markov Model,HMM)

隐含马尔科夫模型 简称HMM 是将分词作为字在字串中的序列标注任务来实现的。其基本思路是:将词中的字划分为:

B-词首 M-词中 E-词尾 S-单独成词 (实际工程中构词标签会更多) 那么分词结果就可以表示成逐字标注模式。 如 : 中文/分词 中/B 文/E分/B词/E

首先,我

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-08-08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章大纲
  • 序列标注
  • 概率图模型
  • 隐马尔可夫模型(Hidden Markov Model,HMM)
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档