我想对一个包含许多行的文件使用TfidfVectorizer(),每一行都是一个短语。然后,我想使用一个包含少量短语的测试文件,执行TfidfVectorizer(),然后取原始文件和测试文件之间的余弦相似度,以便对于测试文件中的给定短语,我在原始文件中检索顶部N个匹配项。'))
from sklearn.feature_extraction.text import <e
我正在尝试理解如何使用sklearn创建文本聚类。为了将语料库转换到向量空间,我使用了tf-idf,并使用k-means算法对文档进行聚类。然而,我不能理解结果是否符合预期,因为不幸的是,输出不是“图形”(我曾尝试使用CountVectorizer来获得频率矩阵,但可能是以错误的方式使用它)。(测试数据集来自列df["0"]['Names'])我想看看文本属于哪个聚类(由k-means组成)。请看下面我目前使用的代码:
from