Python实现jieba分词

Python实现jieba分词

今日知图

替换

0.说在前面1.结巴分词三种模式2.自定义字典3.动态修改字典4.词性标注及关键字提取5.高级使用6.作者的话0.说在前面1.结巴分词三种模式

默认模式

精确模式

搜索引擎模式

以上结果

2.自定义字典

jieba默认分词

加载自定义字典

以上结果

3.动态修改字典

以上结果

4.词性标注及关键字提取

以上结果

5.高级使用

自定义处理:

问题

观察以上output会发现,光荣事业跟奠定基础按照了字典文件进行了合并,但是中国梦并没有,这是什么问题呢?

于是得出以下结论:

jieba 分词自定义词典只对长词起作用

对如果定义的词比jieba自己分的短,则没有用

那如何解决呢?

直接改变主字典路径(0.28 之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径),不用jieba默认的:

将issue.py中的jieba.load_userdict('test_string.txt')

替换为jieba.set_dictionary('test_string.txt')

此时输出:

6.作者的话

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181120G00AB600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券