中文分词常用方法简述

中文分词

就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。

三类分词算法:

1. 基于字符串匹配:

将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出一个词。

优点,速度快,都是O(n)时间复杂度,实现简单。 缺点,对歧义和未登录词处理不好。

此类型中常用的几种分词方法有:

  • 1. 正向最大匹配法: 假设词典中最大词条所含的汉字个数为n个,取待处理字符串的前n个字作为匹配字段。若词典中含有该词,则匹配成功,分出该词,然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配;如果没有匹配成功,则将这n个字组成的字段的最后一位剔除,用剩下的n一1个字组成的字段在词典中进行匹配,如此进行下去,直到切分成功为止。(链接:http://www.jianshu.com/p/e978053b0b95
  • 2. 逆向最大匹配法: 与正向的区别在于如果匹配不成功则减去最前面的一个字。
  • 3. 最少切分 使每一句中切出的词数最少。
2. 基于理解:

通常包括三个部分:分词(用来获得有关词)、句法语义(利用句法和语义信息来对分词歧义进行判断)、总控。

3. 基于统计:

对语料中相邻共现的各个字的组合的频度进行统计,将概率最大的分词结果作为最终结果。常见的模型有HMM和CRF。

优点,能很好处理歧义和未登录词问题。 缺点,需要大量的人工标注数据,以及较慢的分词速度。

部分分词工具:

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/ ansj分词器 https://github.com/NLPchina/ansj_seg 哈工大的LTP https://github.com/HIT-SCIR/ltp 清华大学THULAC https://github.com/thunlp/THULAC 斯坦福分词器,Java实现的CRF算法。 https://nlp.stanford.edu/software/segmenter.shtml Hanlp分词器,求解的是最短路径。 https://github.com/hankcs/HanLP 结巴分词,基于前缀词典,生成句子中所有可能成词所构成的有向无环图 (DAG),采用动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了 HMM 模型,使用 Viterbi 算法。 https://github.com/yanyiwu/cppjieba KCWS分词器(字嵌入+Bi-LSTM+CRF),本质上是序列标注。 https://github.com/koth/kcws ZPar https://github.com/frcchang/zpar/releases IKAnalyzer https://github.com/wks/ik-analyzer


相关文章: 一个隐马尔科夫模型的应用实例:中文分词

学习资料: http://www.jianshu.com/p/e978053b0b95 https://www.zhihu.com/question/19578687/answer/190569700

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏xingoo, 一个梦想做发明家的程序员

推荐系统那点事 —— 基于Spark MLlib的特征选择

在机器学习中,一般都会按照下面几个步骤:特征提取、数据预处理、特征选择、模型训练、检验优化。那么特征的选择就很关键了,一般模型最后效果的好坏往往都是跟特征的选...

32190
来自专栏量子位

谷歌云TPU上可以用Julia啦!0.23秒跑100张图片,Jeff Dean点赞推荐

不久前,Julia Computing官方放出了一篇论文,展示将Julia代码和机器学习模型编译到谷歌云TPU的方法,可以实现在0.23秒内完成100张图片VG...

13430
来自专栏菩提树下的杨过

Flash/Flex学习笔记(20):贝塞尔曲线

贝塞尔曲线的身影几乎在所有绘图软件中都有出现,下面的代码演示了如何用AS3.0画一段简单的贝塞尔曲线(没有使用Document文档类,想测试的朋友,直接把下面的...

22080
来自专栏落影的专栏

iOS开发-OpenGLES进阶教程2

教程 OpenGLES入门教程1-Tutorial01-GLKit OpenGLES入门教程2-Tutorial02-shader入门 OpenGLES入门教程...

31670
来自专栏数据结构与算法

2727:仙岛求药

2727:仙岛求药 查看 提交 统计 提问 总时间限制:1000ms内存限制:65536kB描述少年李逍遥的婶婶病了,王小虎介绍他去一趟仙灵岛,向仙女姐姐要仙丹...

33180
来自专栏灯塔大数据

每周学点大数据 | No.39单词共现矩阵计

No.39期 单词共现矩阵计算 Mr. 王:这里还有一个很典型的例子——单词共现矩阵计算。 这个例子是计算文本集合中词的共现矩阵。我们设 M 是一个 N×N...

62450
来自专栏数据结构与算法

BZOJ1059: [ZJOI2007]矩阵游戏(二分图匹配)

  小Q是一个非常聪明的孩子,除了国际象棋,他还很喜欢玩一个电脑益智游戏——矩阵游戏。矩阵游戏在一个N

10420
来自专栏MyBlog

如何将SQL语句进行自动翻译

这里我们利用SQL-to-Text Generation with Graph-to-Sequence Model一文, 给大家简单介绍一下如何对SQL语句进行...

44920
来自专栏数据的力量

一大波常用函数公式,值得收藏!

17740
来自专栏数据结构与算法

扩展中国剩余定理详解

前言 阅读本文前,推荐先学一下中国剩余定理。其实不学也无所谓,毕竟两者没啥关系 扩展CRT 我们知道,中国剩余定理是用来解同余方程组 但是有一个非常令...

34590

扫码关注云+社区

领取腾讯云代金券