ANSJ
这是一个基于n-Gram+CRF+HMM的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词....如非必要,勿用,其在构造和修改上具有很多不确定性,不符合简单可依赖的理念,有兴趣的人可以了解下。在我小时候的博客中写了几篇关于DAT的文章,虽然很水。据说也有几个人看明白了。...TF/IDF 词袋模型 关键词抽取中用到.用来确定一个词的重要程度.同时利用关键词对文章进行自动摘要
CRF 类似CRF的上下文基于词的标注 用来实现新词发现功能,同时新词发现也服务于关键词抽取
ToAnalysis...,更自由!".../w,ansj/en,_,seg/en,更快/d,,/w,更/d,准/a,,/w,更/d,自由/a,!