精彩文章
文末免费领取2000G干货教程
今日分享:Jieba中文分词基础入门
近年来,随着NLP自然语言处理技术的日益成熟,开源实现的分词工具也越来越多,比如NLTK:其在英文分词较为成熟,分词效果较好,在处理中文分词方面则显得力不足;在处理中文分词时,Jieba这一工具普遍为大家所接受,很多企业也都是利用这一工具来处理涉及中文分词的项目;其他的开源分词工具比如Ansj、盘古分词等,感兴趣的小伙伴可以去搜索一下,本文章重点介绍Jieba分词工具。
使用Jieba分词工具主要基于以下几点:
1、社区活跃。GitHub上Jieba社区活跃度高,表明该项目会一直得到维护并持续更新,适合长期使用。
2、功能丰富。其不仅可以进行分词处理,还可以进行词性标注,关键词提取等。
3、使用简单。基于Python语言来说,其配置非常简单,方便上手。
Jieba分词工具的安装
作为Python的第三方库,和其他库的安装方式一样,打开cmd命令窗口,执行以下命令,等待一段时间即可完成安装:
Jieba分词结合了基于规则和基于统计这两类方法:
1、规则分词:
基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。
按照匹配切分的方式,主要有正向匹配法、逆向最大匹配法以及双向最大匹配法。
2、统计分词:
其主要思想是把每个词看作是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。
Jieba分词是基于以上两种方法,也就是混合分词。先基于词典的方式进行分词,然后再用统计分词方法进行辅助,这样的话既能保证词典分词的准确率,又能做到对未登录词和歧义词有较好的识别。
Jieba的三种分词模式
JIeba词性标注分词
免费分享干货部分截图
关注公众号即可一键领取
省去找资料的麻烦为您的进阶学习保驾护航
公众号QQ群
扫QQ群二维码进交流学习群
领取专属 10元无门槛券
私享最新 技术干货