专栏首页用户画像Python自然语言处理常用库——jieba库

Python自然语言处理常用库——jieba库

一. 分词

1、jieba.cut方法接受四个输入参数

①需要分词的字符串;

②cut_all参数用来控制是否采用全模式;

③HMM参数用来控制是否使用HMM模型;

④use_paddle参数用来控制是否使用paddle模式下的分词模式,enable_paddle接口安装paddlepaddle-tiny,并且import相关代码。

2、jieba.cut_for_search 方法接受两个参数:

①需要分词的字符串;

②是否使用HMM模型。

该方法适合用于搜索引擎构建待排索引的分词,粒度比较细。

3、待分词的字符串可以是unicode、UTF-8、GBK字符串。注意:不建议直接输入GBK字符串,可能无法预料地错误解码成UTF-8

4、jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获取分词后得到的每一个词语(unicode),或者用jieba.cut以及jieba.cut_for_search直接返回list

5、jiaba.tokenizer(dictionary=DEFAULT_DICT)新建自定义分词器,可用于同时使用不同词典。jieba.dt为默认分词器。所有全局分词相关函数都是该分词器的映射。

二、添加自定义词典

1、载入词典

开发者可以指定自定义词典,以便包含jieba词库里没有的词。虽然jieba有新词识别功能。但是自行添加新词可以保证更高的正确率。

用法:jieba.load_userdict(file_name) #file_name为文件类对象或自定义词典的路径

词典格式和dict.txt一样,一个词占一行;每一行分三部分&#

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python自然语言处理资料库

    LTP [1]- 语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过哈工大...

    Python中文社区
  • python实战,中文自然语言处理,应用jieba库来统计文本词频

    2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;

    云飞
  • 最新自然语言处理库transformers

    Transformers是TensorFlow 2.0和PyTorch的最新自然语言处理库

    石晓文
  • Python 自然语言处理(NLP)工具库汇总

    最近正在用nltk 对中文网络商品评论进行褒贬情感分类,计算评论的信息熵(entropy)、互信息(point mutual information)和困惑值(...

    机器学习AI算法工程
  • Python 自然语言处理(NLP)工具库汇总

    最近正在用nltk 对中文网络商品评论进行褒贬情感分类,计算评论的信息熵(entropy)、互信息(point mutual information)和困惑值(...

    小莹莹
  • 自然语言处理| NLTK库的详解

    自然语言处理(natural language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有...

    润森
  • 适用于NLP自然语言处理的Python:使用Facebook FastText库

    在本文中,我们将研究FastText,它是用于单词嵌入和文本分类的另一个极其有用的模块。

    拓端
  • ieba库实现词性标注及小说人物角色抽取

    4年人力资源从业经验,情报学硕士,主要内容涵盖python、数据分析和人力资源相关内容

    冯杰宁
  • Python自然语言处理 NLTK 库用法入门教程【经典】

    @本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府 本文实例讲述了Python自然语言处理 NLTK 库用法。分享给大家供大家参考,具体如下:

    用户7886150
  • 自然语言处理 | 使用Spacy 进行自然语言处理

    Spacy的github地址:https://github.com/explosion/spaCy

    用户1622570
  • 【NLP】竞赛必备的NLP库

    本周我们给大家整理了机器学习和竞赛相关的NLP库,方便大家进行使用,建议收藏本文。

    黄博的机器学习圈子
  • 自然语言处理 | 使用Spacy 进行自然语言处理(二)

    上次我们简单介绍了Spacy,学习了它的安装以及实体识别等基本的方法。今天我继续给大家介绍一下它的其他功能如何操作,主要有词性还原,词性标注,名词块识别,依存分...

    用户1622570
  • 自然语言处理(NLP)相关

    结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词...

    致Great
  • 部分常用分词工具使用整理

    HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、...

    IT小白龙
  • 【自然语言处理(一)】相关基础技能

    2.正则表达式(网上很多教程,关键还是理解每一个代表什么意思,还要多写,其实没什么大不了,这里就不写了)就只写写python中是怎么用的

    西西嘛呦
  • 这些优秀的python库,小白必须收藏起来

    autofelix
  • 五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

    现在的开源中文分词工具或者模块已经很丰富了,并且很多都有一些在封闭测试集上的效果对比数据,不过这仅仅只能展现这些分词工具在这个封闭测试集上的效果,并不能全面说明...

    AINLP
  • Python实现中英文分词

    首先给出昨天文章里最后的小思考题的答案,原文链接为: Python从序列中选择k个不重复元素 既然选择的是不重复的元素,那么试图在[1,100]这样的区间里选...

    Python小屋屋主
  • jieba分词器详解及python实战

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    菲宇

扫码关注云+社区

领取腾讯云代金券