概述
特性
1、中文分词:mmseg算法 + Jcseg 独创的优化算法四种切分模式。
2、关键字提取:基于textRank算法。
3、关键短语提取:基于textRank算法。
4、关键句子提取:基于textRank算法。
5、文章自动摘要:基于BM25+textRank算法。
6、自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。
7、命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。
8、Restful api:嵌入jetty提供了一个绝对高性能的server模块,包含全部功能的http接口,标准化json输出格式,方便各种语言客户端直接调用。
集成组件
六种切分模式:
(1).简易模式:FMM算法,适合速度要求场合。 (2).复杂模式:MMSEG四种过滤算法,具有较高的歧义去除,分词准确率达到了98.41%。 (3).检测模式:只返回词库中已有的词条,很适合某些应用场合。 (4).检索模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)。 (5).分隔符模式:按照给定的字符切分词条,默认是空格,特定场合的应用。 (6).NLP模式:继承自复杂模式,更改了数字,单位等词条的组合方式,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体的识别与返回。
测试
源码下载
GIT下载地址:
https://gitee.com/lionsoul/jcseg.git