击上方
“蓝色字”
可关注我们!
今日分享:Tf-idf
一:API介绍
需要注意的是该API也是在 .text 类下,与CountVectorizer处于同一位置,但不同于DictVectorizer的位置。
二:TF-IDF介绍
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,则该词或短语适合用来分类。
TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
TF(term frequency):词的频率,是一个比值,即某词在某文本中出现的次数比上该文本中所统计的所有词的个数。
IDF(inverse document frequency):逆文档频率,在设计该算法时,考虑到该结果的数值较大,所以对结果进行了对数处理,即log(总文档数量/该词出现的文档数量),注:对数以2为底。
最后,TF*IDF 即为该词或短语的 tf-idf 值。
三:TF-IDF类语法
四:流程
准备句子,利用jieba.lcut进行分词,返回每个文本的词列表
实例化TfidfVectorizer
将分词结果变成字符串当作fit_transform的输入值
五:Demo代码演示
导入相关类
核心代码
输出结果
输出结果中tfidf列表所示内容中为0的值表示在当前文本中未出现该词,所以为0 。tfidf列表的长度始终与总特征词表的长度保持一致。
公众号QQ群
扫QQ群二维码进交流学习群
领取专属 10元无门槛券
私享最新 技术干货