7年老品牌,专注收录排名批量查询关键词挖掘
定义
在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。
算法
TF-IDF法认为一个单词出现的文本频数(即包含某个单词的文本数)越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。
关键词与文件相关性计算
根据关键字k1,k2,k3进行搜索的文件相关性计算为:TF1*IDF1 + TF2*IDF2 + TF3*IDF3。
假设文档A的总词量为1000,k1、k2、k3三个词在文档A中分别出现了100、200、50次,包含k1、k2、k3三个词的文档分别有1000、10000、5000,语料库中总文档数为10000。根据以上数据计算,
TF1=100/1000=0.1,TF2=200/1000=0.2,TF3=50/1000=0.05;
IDF1=log(10000/1000)=2.3,IDF2=log(10000/10000)=0,IDF1=log(10000/5000)=0.69;
那么关键字k1,k2,k3与文档A的相关性=?0.1*2.3 + 0.2*0 + 0.05*0.69 = 0.2645。
在某个一共有1000词的网页中“大数据”、“的”、“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。这三个数相加得 0.042 就是查询“大数据的应用”与相应网页之间相关性的一个简单的度量。
概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。那么,这个查询和该网页的相关性就是:TF1 + TF2 + ... + TFN。
基于上面的例子,词语“的”占了总词的 80% 以上,而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。
忽略这些应删除词后,上述网页的相似度就变成了0.007,其中“大数据”词贡献了 0.002,“应用”贡献了 0.005。在汉语中,“应用”是个很通用词,而“大数据”是个很专业词,后者在相关性计算中比前者重要。
1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“大数据”这个词,能基本了解网页的主题。而我们看到“应用”这个词,对主题基本上还是一无所知。因此,“大数据“的权重就大。
2. 应删除词的权重应为零。
如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,如“的”等应删词,我们看到它仍然不很清楚要找什么内容。
概括地讲,假定一个关键词 w 在M个网页中出现过,那么M越大,w的权重越小,反之亦然。在信息检索中,使用最多的权重就是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数,Dw是包含关键词w的网页数。
在上面的例子中,该网页和“大数据的应用”的相关性为 0.0161,其中“大数据”贡献了 0.0126,而“应用”只贡献了0.0035。
领取专属 10元无门槛券
私享最新 技术干货