知识卡片文本分词

DataScience

发布于 2020-07-29 11:23:29

4290

发布于 2020-07-29 11:23:29

文章被收录于专栏：A2DataA2Data

jieba库是一个强大的中文分词库，对中文进行分词。（pip install jieba）

jieba有三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点：

1、精确模式：把句子最精确地分开，适合做文本分析。

2、全模式：把句子中所有的可以成词的词语都切开, 速度快，但有歧义。

3、搜索引擎模式：在精确模式的基础上，对长词再次进行切分，提高召回率，

适合用于搜索引擎的分词

代码如下：

import jieba

words = '数据科学公众号团队致力于分享关于数据科学的编程语言以及算法等知识'

# 精确模式
print("/".join(jieba.lcut(words)))

# 全模式
print("/".join(jieba.lcut(words,cut_all=True)))

# 搜索引擎模式
print("/".join(jieba.lcut_for_search(words, )))

结果如下：

# 精确模式语文阅读的文本分词

数据/科学/公众/号/团队/致力于/分享/关于/数据/科学/的/编程语言/以及/算法/等/知识

# 全模式列出所有可以成词的文本

数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/编程语言/语言/以及/算法/等/知识

# 搜索引擎模式加强对长词的切分，提高搜索的召回率

数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/语言/编程语言/以及/算法/等/知识

jieba 结巴Github网址推荐：https://github.com/fxsjy/jieba

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-07-28，如有侵权请联系 cloudcommunity@tencent.com 删除

搜索引擎