要让计算机能高效地处理自然文本, 就需要找到一种合理的形式化的文本表示方法, 这种表示方法一方面能尽可能完整真实地反应文档的内容 (主题, 领域或结构信息), 另一方面还需要对不同的文档具有区分能力....这种绝对词频 (term frequency, TF) 方法中, 无法体现低频特征的区分能力, 因为有些特征词出现次数很多, 但并不能很好地代表文本特征 (比如很多 generic 的常用词), 而有些特征项虽然频率较低....
1.4 TF-IDF 的应用
TF-IDF 作为向量空间模型中的基础文本特征表示方法, 一旦文本被表示为 TF-IDF 值的向量, 便可或直接或融合其他特征表示方法, 用于各种下游任务, 如文本语义相似性匹配...上面这个一般的式子里的
W_i
和
R(q_i, d)
的具体计算,都是基于词袋方法的词频计数,它不考虑多个搜索词在文档里的关联性,只考虑它们各自的出现次数。...BM25 算法中,还出现在许多其他的排序函数中,他们为此提出了一个一般性的解决方案,即为每一个 query 中出现于文本的特征项相关性得分设置一个下界。