专栏首页hadoop学习笔记Ansj与hanlp分词工具对比

Ansj与hanlp分词工具对比

一、Ansj

1、利用DicAnalysis可以自定义词库:

2、但是自定义词库存在局限性,导致有些情况无效:

比如:“不好用“的正常分词结果:“不好,用”。

(1)当自定义词库”好用“时,词库无效,分词结果不变。

(2)当自定义词库

“不好用”时,分词结果为:“不好用”,即此时自定义词库有效。

3、由于版本问题,可能DicAnalysis, ToAnalysis等类没有序列化,导致读取hdfs数据出错

此时需要继承序列化接口

 1|case class myAnalysis() extends DicAnalysis with Serializable  

   2|val seg = new myAnalysis()

二、HanLP

同样可以通过CustomDictionary自定义词库:

但是在统计分词中,并不保证自定义词典中的词一定被切分出来,因此用户可在理解后果的情况下通过

 1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)强制生效

并发问题:

CustomDictionary是全局变量,不能在各节点中更改,否则会出现并发错误。

但是HanLP.segment(sentence),只有一个参数,不能指定CustomDictionary,导致在各个excutors计算的时候全局CustomDictionary无效。

由于CustomDictionary是全局变量,因此我采用一个方式:每个分区都对CustomDictionary加锁并添加一次词库,性能影响较小:

原文链接:https://blog.csdn.net/weixin_40901056/article/details/89349095

我来说两句

0 条评论
登录 后参与评论

相关文章

  • NLP自然语言处理中英文分词工具集锦与基本使用介绍

    1.from stanfordcorenlp import StanfordCoreNLP

    IT小白龙
  • DKhadoop安装包下载与DKM监控参数说明

    前阶段用了差不多两周的时间把DKhadoop的运行环境搭建以及安装的各个操作都介绍了一遍。关于DKhadoop安装包下载也只是顺带说了一下,但好像大快搜索的服务...

    IT小白龙
  • Hanlp分词1.7版本在Spark中分布式使用记录

    新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度,还需...

    IT小白龙
  • python实现秒杀商品的微信提醒

    我们需要找到它的商品信息,需要打开浏览器的开发者模式,之后我们需要选择自己的配送地址,这个时候里面就发送一些接口请求:

    我被狗咬了
  • 高喊“Vive Reality”的王雪红,真的已对手机业务心灰意冷了?

    VRPinea
  • 百亿美元做VR风投,HTC是要做VR投资的第一把交椅吗?

    镁客网
  • Node.js 对 Java:一场史诗级的争夺开发者注意力的对决

    在计算机历史上,1995 年是一段疯狂的岁月。首先 Java 出现了,随后 JavaScript 也出现了。Java 和 JavaScript 的名字看起来像是...

    五月君
  • jQuery 常用方法

    :::::::
  • HTC拆分VR业务为独立子公司,继续押宝虚拟现实

    镁客网
  • IE 浏览器 DOM 树结构概览(下)

    DOM (Document Object Model)作为现代浏览器的基础,其设计和实现方式影响着整个浏览器的表现。对安全研究者而言,了解 DOM 的结构更是有...

    腾讯玄武实验室

扫码关注云+社区

领取腾讯云代金券