pip install jieba |
|---|
import jieba |
|---|
text = "我爱北京天安门" |
|---|
words = jieba.cut(text, cut_all=False) # 精确模式 |
|---|
print(list(words)) |
|---|
# 输出: ['我', '爱', '北京', '天安门'] |
|---|
words = jieba.cut(text, cut_all=True) |
|---|
print(list(words)) |
|---|
# 输出: ['我', '爱', '北京', '天安门', '北京天安门'] |
|---|
words = jieba.cut_for_search(text) |
|---|
print(list(words)) |
|---|
# 输出: ['我', '爱', '北京', '天安门', '北京天安门'] |
|---|
jieba.load_userdict("userdict.txt") |
|---|
userdict.txt 示例:天安门 10 n |
|---|
北京大学 5 ns |
|---|
词语 词频 词性jieba.add_word("小米手机") |
|---|
jieba.del_word("一些错误词") |
|---|
jieba 提供 TF-IDF 和 TextRank 方法:
import jieba.analyse |
|---|
text = "小米手机发布了新款旗舰,性能提升明显。" |
|---|
# TF-IDF |
|---|
keywords = jieba.analyse.extract_tags(text, topK=3, withWeight=True) |
|---|
print(keywords) |
|---|
# [('小米手机', 1.2), ('旗舰', 0.8), ('性能', 0.6)] |
|---|
# TextRank |
|---|
keywords = jieba.analyse.textrank(text, topK=3, withWeight=True) |
|---|
print(keywords) |
|---|
import jieba.posseg as pseg |
|---|
words = pseg.cut("小米手机发布了新款旗舰") |
|---|
for word, flag in words: |
|---|
print(word, flag) |
|---|
# 输出: |
|---|
# 小米手机 n |
|---|
# 发布 v |
|---|
# 新款 n |
|---|
# 旗舰 n |
|---|
常用词性:
如果你需要,我可以帮你画一张 jieba 分词流程图,展示 输入文本 → 分词模式选择 → 自定义词典 → 输出分词 → 关键词提取,让整个流程直观易懂。
https://www.52runoob.com/archives/6584
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。