cut() 函数传入待分词的字符串,返回一个可迭代的生成器,可使用 for 循环提取或者 list 转为列表形式。...errors='ignore')as f:
data = f.read()
res = extract_tags(data)
print(res)
结果如下:
['行者', '八戒', '师父', '三藏'...'那怪', '那里',
'长老', '呆子', '徒弟', '怎么', '不知', '老孙', '国王', '一个']
修改 topK = 10 得到:
['行者', '八戒', '师父', '三藏'...True 得到:
[('行者', 0.14971032916840787), ('八戒', 0.0684495682590684),
('师父', 0.06131338130166949), ('三藏'...解决起来更方便,关于 Counter参考:【Counter】
3、搜索词汇位置
jieba 库也包含了定位词汇位置的功能,jieba.tokenize() 可以实现此功能,该函数接收字符串,返回一个生成器