关于TF(词频) 和TF-IDF(词频-逆向文件频率 )的理解

TF(词频):  假定存在一份有N个词的文件A,其中‘明星‘这个词出现的次数为T。那么 TF = T/N;

所以表示为: 某一个词在某一个文件中出现的频率.

TF-IDF(词频-逆向文件频率):  表示的词频和逆向文件频率的乘积.

比如:  假定存在一份有N个词的文件A,其中‘明星‘这个词出现的次数为T。那么 TF = T/N;  并且‘明星’这个词,在W份文件中出现,而总共有X份文件,那么

IDF = log(X/W) ;

而: TF-IDF =  TF *  IDF = T/N * log(X/W);   我们发现,‘明星’,这个出现在W份文件,W越小 TF-IDF越大,也就是这个词越有可能是该文档的关键字,而不是习惯词(类似于:‘的’,‘是’,‘不是’这些词),

而TF越大,说明这个词在文档中的信息量越大.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

Python告诉你:单词软件火了,但真的有那么多人在背单词吗?

0x00 前言 你想知道背单词软件有大概多少人注册第一天都没有背完嘛? 你想知道背单词软件这么火,这么多人在使用,真的有多少人真的在背诵嘛? 别急,Python...

2267
来自专栏吉浦迅科技

【资料学习】我到底拿什么说服老板采购Tesla V100!

本文仅献给需要做GPU超算方案和预算的科研前线的人 同类介绍Tesla V100的技术文章很多,我们只highlight关键几个知识点。 2017年5月GTC ...

3635
来自专栏Data Analysis & Viz

图表太丑怎么破,ECharts神器带你飞!

在本专栏或文集中,我曾多次使用ECharts绘制图表、进行可视化,也渐渐积累了30多个实例,本文对此前用过的所有图表和代码进行整理并分享,以给想绘制精美图表的人...

4112
来自专栏逍遥剑客的游戏开发

VR中物理的网络同步

之前做VR游戏时也是尝试了几种物理的同步方案, 最近看到Oculus Blog上也分享了一些, 经验, 做个笔记.。

3236
来自专栏大数据杂谈

Google Colab 免费GPU服务器使用教程

1.9K9
来自专栏量子位

用深度神经网络修复H漫:看完这篇你就能眼中无码

AI“脑补”能力一流,现在甚至已经能画出艺术品。热爱H漫的死宅们灵光一闪,AI是否也可以把马赛克阻挡的内容也画出来呢?

2305
来自专栏谈补锅

apns关于APP数字角标的理解

  前两天群里有兄弟在吐槽,做远程推送的时候:老板要求APP桌面图标的右上角显示红色未读数字(数字角标)要精准,有多少未读通知就显示数字几;但是后台的弟兄在发送...

1783
来自专栏Petrichor的专栏

GPU/CPU性能天梯图

中央处理器 (英语:Central Processing Unit,缩写:CPU),是计算机的主要设备之一,功能主要是解释计算机指令以及处理计算机软件中的数据...

4.2K2
来自专栏何俊林

关于Android Pie(Android 9.0),你想知道的都在这了

2018年8月7日-凌晨1点,谷歌发布了Android 9.0操作系统,它的名字是Android 9,被命名为Android Pie。让我们看看关于Androi...

1K3
来自专栏吉浦迅科技

DAY27:阅读多处理器

1613

扫码关注云+社区