就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。
将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出一个词。
优点,速度快,都是O(n)时间复杂度,实现简单。
缺点,对歧义和未登录词处理不好。
此类型中常用的几种分词方法有:
通常包括三个部分:分词(用来获得有关词)、句法语义(利用句法和语义信息来对分词歧义进行判断)、总控。
对语料中相邻共现的各个字的组合的频度进行统计,将概率最大的分词结果作为最终结果。常见的模型有HMM和CRF。
优点,能很好处理歧义和未登录词问题。
缺点,需要大量的人工标注数据,以及较慢的分词速度。
中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/
ansj分词器 https://github.com/NLPchina/ansj_seg
哈工大的LTP https://github.com/HIT-SCIR/ltp
清华大学THULAC https://github.com/thunlp/THULAC
斯坦福分词器,Java实现的CRF算法。 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp分词器,求解的是最短路径。 https://github.com/hankcs/HanLP
结巴分词,基于前缀词典,生成句子中所有可能成词所构成的有向无环图 (DAG),采用动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了 HMM 模型,使用 Viterbi 算法。 https://github.com/yanyiwu/cppjieba
KCWS分词器(字嵌入+Bi-LSTM+CRF),本质上是序列标注。 https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analyzer
相关文章:
学习资料:
http://www.jianshu.com/p/e978053b0b95
https://www.zhihu.com/question/19578687/answer/190569700