首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

特征工程之TF-IDF

击上方

“蓝色字”

可关注我们!

今日分享:Tf-idf

一:API介绍

需要注意的是该API也是在 .text 类下,与CountVectorizer处于同一位置,但不同于DictVectorizer的位置。

二:TF-IDF介绍

TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,则该词或短语适合用来分类。

TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

TF(term frequency):词的频率,是一个比值,即某词在某文本中出现的次数比上该文本中所统计的所有词的个数。

IDF(inverse document frequency):逆文档频率,在设计该算法时,考虑到该结果的数值较大,所以对结果进行了对数处理,即log(总文档数量/该词出现的文档数量),注:对数以2为底。

最后,TF*IDF 即为该词或短语的 tf-idf 值。

三:TF-IDF类语法

四:流程

准备句子,利用jieba.lcut进行分词,返回每个文本的词列表

实例化TfidfVectorizer

将分词结果变成字符串当作fit_transform的输入值

五:Demo代码演示

导入相关类

核心代码

输出结果

输出结果中tfidf列表所示内容中为0的值表示在当前文本中未出现该词,所以为0 。tfidf列表的长度始终与总特征词表的长度保持一致。

公众号QQ群

扫QQ群二维码进交流学习群

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181004G18T5V00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券