结果:匹配“北京理工”
(2)接着选取长度为6的字符串进行匹配,即“大学生前来应” “大学生前来应”在词典中没有匹配字段,继续从后去除汉字,“大学生” 三个汉字在词典中匹配成功。...(2) 基础用法
首先读者看一段简单的结巴分词代码。
jieba.cut(text,cut_all=True)
分词函数,第一个参数是需要分词的字符串,第二个参数表示是否为全模式。...load_userdict(f)
(3) 中文分词实例
下面对表1中的语料进行中文分词。代码为依次读取文件中的内容,并调用结巴分词包进行中文分词,然后存储至本地文件中。...如果在文本中出现了该特征词,则文本向量对应该特征词的分量赋值为1;如果该特征词没有在文本中出现,则分量为0。公式如下所示,其中wij表示特征词ti在文本Dj中的权重。...假设特征向量为:
{北京理工,大学生,前来,应聘,清华大学,也,我,喜欢,写,代码}
现在需要计算句子“北京理工大学生前来应聘”的权重,则特征词在特征向量中存在的,对应分量为1,不存在的对应分量为0,最终特征向量结果为