专栏首页hadoop学习笔记hanlp添加自定义字典的步骤介绍

hanlp添加自定义字典的步骤介绍

本篇分享一个hanlp添加自定义字典的方法,供大家参考!

总共分为两步:

第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。如果没有的话它会根据配置文件中路径去加载字典生成bin文件。

第二步:去配置文件把自己添加自定义的文件的路径添加进去,注意一定要添加末尾后面而且结束时不能有;号,我添加在其他位置都不好使。而且相对路径也不好使

上面是把bin文件删掉后跑起来的样子,会等一两分钟生成bin文件。

原文链接:https://blog.csdn.net/qq_33872191/article/details/84963398

我来说两句

0 条评论
登录 后参与评论

相关文章

  • HanLP分词工具中的ViterbiSegment分词流程

    本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常...

    IT小白龙
  • 基于hanlp的es分词插件

    摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,...

    IT小白龙
  • Hanlp自然语言处理中的词典格式说明

    使用过hanlp的都知道hanlp中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了hanlp中的词典格式,以满足用户自...

    IT小白龙
  • pyhanlp 停用词与用户自定义词典功能详解

    之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。

    IT小白龙
  • Hanlp分词1.7版本在Spark中分布式使用记录

    新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度,还需...

    IT小白龙
  • 一步一步教你在Ubuntu中安装HanLP

    让我们每天带着希望出门,如果事与愿违,就再把希望带回家,休息休息,明天继续带出门。

    触摸壹缕阳光
  • 在Hanlp词典手动添加未登录词的方式介绍

    在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决...

    IT小白龙
  • 基于词典规则的中文分词

    中文分词算法大致分为基于词典规则与基于机器学习两大派别,不过在实践中多采用结合词典规则和机器学习的混合分词。由于中文文本是由连续的汉字所组成,因此不能使用类似英...

    触摸壹缕阳光
  • hanlp自然语言处理包的基本使用--python

    hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。

    IT小白龙

扫码关注云+社区

领取腾讯云代金券