条数据,虽然没有放开正文,但是也是非常好的词包收集源,于是笔者花了很久整理一版本。...十招教你做出拿得出手的PPT|,|互联网,美国,ppt,powerpoint,幻灯片,演示文稿,微软,字体列表|,|
由开源的内容就可以构建一套新闻类的词包。...基于前面整理的词包素材内容,包含词粒度的四样内容:每个词分属主题、分属主题频数、词TF/IDF信息。...3.2 用户词典载入
jieba.add_word并规定词性,然后分词时候根据自定义的词性就可以比较好的筛选出这些关键词。当然这些关键词把顺序打乱了。...,笔者为了方便自己记忆,有如下的函数:
getPseg:按照词性进行分词,可以有效将定义的关键词暴露出来;
totalTopic,粗粒度主题得分,每个词基本属性,不带词频,[‘体育’,’新闻’]
perTopic