一种快速的未登陆词识别方法(原理和实现)
最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放.
...但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉.
算法的假设:
1. 未登陆词是由单字组成的;
2....长今,职场,闵政浩,韩剧,郑云白,连生,主簿,冷庙高香,义字,医女,张德,剩者,济州,选拨,文秘
算法原理:
首先找出已经分词后的单字,然后查看单字的下一个是否还是单字,如果是,判断这种情况出现的次数...,如果超过预订的阀值,那么就确认这是一个新词.
...相关连接:
基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题
Lucene使用者沙龙