首页
学习
活动
专区
工具
TVP
发布

影响搜索引擎对页面权重的判断-研究TF-IDF

7年老品牌,专注收录排名批量查询关键词挖掘

定义

在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。

算法

TF-IDF法认为一个单词出现的文本频数(即包含某个单词的文本数)越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。

关键词与文件相关性计算

根据关键字k1,k2,k3进行搜索的文件相关性计算为:TF1*IDF1 + TF2*IDF2 + TF3*IDF3。

假设文档A的总词量为1000,k1、k2、k3三个词在文档A中分别出现了100、200、50次,包含k1、k2、k3三个词的文档分别有1000、10000、5000,语料库中总文档数为10000。根据以上数据计算,

TF1=100/1000=0.1,TF2=200/1000=0.2,TF3=50/1000=0.05;

IDF1=log(10000/1000)=2.3,IDF2=log(10000/10000)=0,IDF1=log(10000/5000)=0.69;

那么关键字k1,k2,k3与文档A的相关性=?0.1*2.3 + 0.2*0 + 0.05*0.69 = 0.2645。

在某个一共有1000词的网页中“大数据”、“的”、“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。这三个数相加得 0.042 就是查询“大数据的应用”与相应网页之间相关性的一个简单的度量。

概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。那么,这个查询和该网页的相关性就是:TF1 + TF2 + ... + TFN。

基于上面的例子,词语“的”占了总词的 80% 以上,而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。

忽略这些应删除词后,上述网页的相似度就变成了0.007,其中“大数据”词贡献了 0.002,“应用”贡献了 0.005。在汉语中,“应用”是个很通用词,而“大数据”是个很专业词,后者在相关性计算中比前者重要。

1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“大数据”这个词,能基本了解网页的主题。而我们看到“应用”这个词,对主题基本上还是一无所知。因此,“大数据“的权重就大。

2. 应删除词的权重应为零。

如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,如“的”等应删词,我们看到它仍然不很清楚要找什么内容。

概括地讲,假定一个关键词 w 在M个网页中出现过,那么M越大,w的权重越小,反之亦然。在信息检索中,使用最多的权重就是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数,Dw是包含关键词w的网页数。

在上面的例子中,该网页和“大数据的应用”的相关性为 0.0161,其中“大数据”贡献了 0.0126,而“应用”只贡献了0.0035。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190823A0RKO400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券