专栏首页hadoop学习笔记pyhanlp用户自定义词典添加实例说明

pyhanlp用户自定义词典添加实例说明

pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp

经过测试,HanLP比nltk在中文分词和实体识别方面都更好用.

如何向pyhanlp添加自定义的词典?以python 2.7.9为例:

1.安装pyhanlp:pip install pyhanlp

2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。

具体绝对路径可用hanlp --version获取:

#hanlp --version

jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar

data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data

config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties

#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"

3.建议在该路径下添加自己的词典文件例如 我的词典.txt,并将其加入上面的properties文件里的CustomDictionaryPath下面。

#cat 我的词典.txt  

codis集群 nz 1000

今日头条 nz 1000

第一列为词条,第二列为词性(默认为n),第三列为词频

4.然后需要删除缓存文件,这样python才会重新加载新增的文件:

#rm -f CustomDictionary.txt.bin

5.测试新增的词典:

python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日头条'))"

五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes

警告:读取

/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (没有那个文件或目录)

报这个错误没有关系,只是个warning,重新加载缓存文件而已。

备注:

HanLP词性列表:详细的词性列表可以查询hanlp项目网站上内容,更为全面详细!

---------------------

作者:明月三千里68

原文链接:https://blog.csdn.net/jly8866/article/details/80338800

我来说两句

0 条评论
登录 后参与评论

相关文章

  • HanLP的自定义词典使用方式与注意事项

    进入python安装包路径,如/usr/lib/python2.7/site-packages/pyhanlp/static/

    IT小白龙
  • Eclipse myeclipse下配置HanLP的教程

    备注:文章分享自贾继康的博客,博客使用的hanlp是1.6.8的版本。大家可以去下载最新的1.7版本了,也比较推荐使用最新的这个版本!

    IT小白龙
  • Spring MVCD框架中调用HanLP分词的方法

    项目简要:关于java web的一个项目,用的Spring MVCd 框架。鉴于参与此次项目的人中并不是所人都做的Spring,为了能够提高效率,建议大家是先抛...

    IT小白龙
  • QUAST:评估基因组组装效果

    对于不同kmer或者不同软件的基因组组装结果,我们通常会通过N50等指标来进行评估。

    生信修炼手册
  • Eclipse myeclipse下配置HanLP的教程

    备注:文章分享自贾继康的博客,博客使用的hanlp是1.6.8的版本。大家可以去下载最新的1.7版本了,也比较推荐使用最新的这个版本!

    IT小白龙
  • SQL反模式学习笔记1 开篇

    在开始编码之前,需要决定数据库中存储什么信息以及最佳的数据组织方式和内在关联方式。

    张传宁老师
  • python 统计MySQL表信息

    需要利用的技术点,有2个。一个是pymysql(连接mysql),一个是xlwt(写入excel)

    py3study
  • 腾讯云【数据万象】使用指南——基础图片处理(中)

    在上期文章中,我们介绍了【数据万象】的部分基础图片处理功能,其中包含缩放、裁剪、旋转、格式转换、质量变换功能,这期我们将为大家介绍数据万象中,高斯模糊、锐化、添...

    腾讯云数据万象
  • css基本知识框架图

    2.样式表基本类型-----1.内嵌样式 2.内联样式3.链入外部样式表4.导入外部样式

    yaohong
  • SQL语句中出现中文字符时JDBC报错,解决办法

    (1)当SQL中出现汉字时,直接执行SQL命令,可以得到正确结果 ? (2)当使用JDBC查询时,报错 严重: Servlet.service() for se...

    程裕强

扫码关注云+社区

领取腾讯云代金券