Python中文分词工具：Jieba的基本使用

文章来源：企鹅号 - 数据挖掘及分析

精彩文章

文末免费领取2000G干货教程

今日分享：Jieba中文分词基础入门

近年来，随着NLP自然语言处理技术的日益成熟，开源实现的分词工具也越来越多，比如NLTK：其在英文分词较为成熟，分词效果较好，在处理中文分词方面则显得力不足；在处理中文分词时，Jieba这一工具普遍为大家所接受，很多企业也都是利用这一工具来处理涉及中文分词的项目；其他的开源分词工具比如Ansj、盘古分词等，感兴趣的小伙伴可以去搜索一下，本文章重点介绍Jieba分词工具。

使用Jieba分词工具主要基于以下几点：

1、社区活跃。GitHub上Jieba社区活跃度高，表明该项目会一直得到维护并持续更新，适合长期使用。

2、功能丰富。其不仅可以进行分词处理，还可以进行词性标注，关键词提取等。

3、使用简单。基于Python语言来说，其配置非常简单，方便上手。

Jieba分词工具的安装

作为Python的第三方库，和其他库的安装方式一样，打开cmd命令窗口，执行以下命令，等待一段时间即可完成安装：

Jieba分词结合了基于规则和基于统计这两类方法：

1、规则分词：

基于规则的分词是一种机械分词方法，主要是通过维护词典，在切分语句时，将语句的每个字符串与词表中的词进行逐一匹配，找到则切分，否则不予切分。

按照匹配切分的方式，主要有正向匹配法、逆向最大匹配法以及双向最大匹配法。

2、统计分词：

其主要思想是把每个词看作是由词的最小单位的各个字组成的，如果相连的字在不同的文本中出现的次数越多，就证明这相连的字很可能就是一个词。

Jieba分词是基于以上两种方法，也就是混合分词。先基于词典的方式进行分词，然后再用统计分词方法进行辅助，这样的话既能保证词典分词的准确率，又能做到对未登录词和歧义词有较好的识别。

Jieba的三种分词模式

JIeba词性标注分词

免费分享干货部分截图

关注公众号即可一键领取

省去找资料的麻烦为您的进阶学习保驾护航

公众号QQ群

扫QQ群二维码进交流学习群

发表于: 2018-08-122018-08-12 20:58:03
原文链接：https://kuaibao.qq.com/s/20180812G19GUU00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python中文分词工具：Jieba的基本使用

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐