如何解决tf-idf词汇表错误？

、、、

我在我的训练数据上训练了一个来自sklearn的TFIDF，当我在新的数据上应用词汇表时，它会给我一个关键错误，因为它没有在上面学习。我该怎么解决它呢？这是我的代码。

浏览 17提问于2020-10-09得票数 0

回答已采纳

2回答

Smalltalk和tf-idf算法

、、、

谁能在Smalltalk中展示一个用于自然语言处理的tf-idf算法的简单实现或用法示例？我在一个名为的包中找到了一个实现，但它似乎太复杂了，无法满足我的需求。我注意到中还有另一个tf-idf，但它似乎与软件系统词汇表的分析有关，我没有找到如何使用它的示例。

浏览 3提问于2012-07-08得票数 3

回答已采纳

2回答

有必要将TF-IDF应用于gensim LDA模型中的新文档吗？

我在上关注“英语维基百科”的基因教程doc_lda = lda[doc_bow] LDA是否只需要词袋向量？

浏览 89提问于2017-06-27得票数 10

回答已采纳

1回答

我正在尝试使用Sklearn的TfidfVectorizer对象获取单个文档的tf-idf向量。我根据一些训练文档创建了一个词汇表，并使用fit_transform训练TfidfVectorizer。然后，我希望找到任何给定测试文档的tf-idf向量。doc = "some string I want to get tf-idf vector for"问题是这会返回一个n行的矩阵，其中我希望它只返回一个代表整个字符串的tf-id

浏览 1提问于2013-11-22得票数 37

回答已采纳

1回答

如何模拟tf-国防军火花

、、

我正在尝试重写编写的代码(它是用Python编写的)，但现在正在发火。tfidf = TfidfVectorizer() 我读过火花文档，是否有必要在PySpark中使用Tokenizer，HashingTF，然后才能模拟TF-下手？tokenizer = Tokenizer(inputCol

浏览 10提问于2022-08-29得票数 1

回答已采纳

2回答

如何在weka中将测试文档转换为训练词汇维度的向量？

、

使用Weka的StringtoVector功能，我可以很容易地将训练样本转换成带有tf-idf的向量进行术语加权，并提取V维的词汇表，我尝试了很多方法，但没有想出一种方法来为测试文档创建V维(训练样本中的词汇)的文档向量，但我知道这是可能的，就像我们分别提供训练和测试样本的所有分类器一样，这是在内部完成的，因为所有人都需要测试文档的文档向量，这是训练词汇表维度的，但是我如何在java代码中做到这一点，以便我可以获得测试样本tf-idf向量，它与词汇和所有训练样本的维度相同。

浏览 0提问于2013-12-17得票数 1

3回答

scikit学习TfidfVectorizer的意义？

、、、、

我读到了关于scikit learn的TfidfVectorizer 的文章，我不明白这个方法的输出是什么，例如：new_term_freq_matrix = tfidf_vectorizer.transform(new_docs)print ne

浏览 0提问于2014-09-18得票数 25

回答已采纳

1回答

当我尝试使用python networkx对文本文档进行摘要时，出现错误‘增强迭代在100次迭代内收敛失败’)

、、

代码"scores = nx.pagerank(sentence_similarity_graph)“处显示的错误 def read_article(file_name): file = open

浏览 127提问于2020-07-22得票数 4

1回答

如何在k-means聚类中使用tfidf值

、、、、

我在使用sckit-learn库的TF-IDF中使用K-means聚类。我知道K-means使用距离来创建聚类，距离用(x轴值，y轴值)表示，但tf-idf是一个单独的数值。我的问题是，这个tf-idf值是如何通过K均值聚类转换为(x，y)值的。

浏览 20提问于2020-02-19得票数 2

回答已采纳

1回答

需要创建IDF值的字典，将单词与其IDF值相关联

我了解如何使用向量器获取IDF值和词汇表。对于词汇，单词的频率是值，单词是字典的关键字，但是，我希望值是idf值。 for string in text_array: for word in total_dict.keys(): # calculate

浏览 0提问于2019-07-27得票数 0

1回答

使用python中的余弦相似度返回与查询文档相比最相似的文档

、、、、

我有一组文件和一个查询doc.My，目的是通过与查询文档进行比较来返回最相似的文档，对于每个document.To使用余弦相似度，首先我要将文档字符串映射到vectors.Also，我已经创建了一个tf-idfvector1, vector2) / (math.sqrt(numpy.dot(vector1, vector1)) * math.sqrt(numpy.dot(vector2, vector2)))def tfidf(self, term, key): return (self.tf(term,key) *

浏览 1提问于2012-02-28得票数 4

2回答

scikit了解SelectPercentile TFIDF数据特征缩减

、、、

我使用scikit-learn中的各种机制来创建由文本特征组成的训练数据集和测试集的tf-idf表示。这两个数据集都经过预处理，以使用相同的词汇表，因此特征和特征的数量是相同的。我想知道，如果我在转换后使用SelectPercentile来减少训练集中的特征数量，如何识别测试集中的相同特征以用于预测？

浏览 0提问于2015-04-01得票数 2

1回答

SVC文本分类- TypeError:不可散列类型：'csr_matrix‘

、、、、

然而，当我尝试做一次预测时，我得到了错误unhashable type: 'csr_matrix'。我不确定为什么会发生这种情况。

浏览 92提问于2021-11-20得票数 0

回答已采纳

3回答

计算大熊猫的Tf-Idf分数？

、、、、

': ['This is the first sentence','This is the second sentence', 'This is the third sentence']}) 我想使用Tf-Idf

浏览 13提问于2018-08-02得票数 2

3回答

用短语构建语料库

、、、、

very good very bad you are great good restaurent nice place to visit doc2 0 tf-idf0 tf-idf tf-idf 我知道，如

浏览 0提问于2014-06-04得票数 3

回答已采纳

1回答

如何实现TF-IDF评分，并对某些术语进行额外加权

、、、、

我目前有一个tf-idf评分系统，我正在使用余弦相似度进行搜索。我想添加额外的权重，以考虑给定的术语是否在文档的标题中。然而，我不确定如何将标题数据与tf-idf分数结合起来。有谁知道解决这个问题的好方法吗？

浏览 24提问于2019-11-25得票数 0

1回答

如何将TF-IDF与编辑距离或Jaro-winkler距离相结合

、、、

我正在寻找提高TF-IDF权重方案在字符串匹配(相似度)中的准确性的方法。主要问题是TF-IDF对字符串中的排版错误很敏感，并且大多数大型数据集往往都有排版错误。我意识到编辑距离的变体(基于字符的相似性度量-levienshtein，affine-gas，Jaro和Jaro-winkler)适用于存在排版错误的字符串之间的相似性计算，但不适用于字符串中单词顺序混乱的情况因此，我想使用编辑距离校正功能来提高TF-IDF的准确性。任何关于如何应对这一挑战的想法都将受到高度

浏览 2提问于2013-04-13得票数 6

1回答

如何在单个文档中查找单词相关性？

、、、、

我知道在一组文档中使用TF-IDF，但是是否可以使用TF-IDF来解决这个问题？如果没有，我如何在Python中做到这一点？

浏览 1提问于2019-04-01得票数 0

2回答

在给定句子、关键词或主题的情况下提取相关文本

、、、、

是否有任何已知的方法(除了统计分析之外，但不一定排除它作为解决方案的一部分)来使用自然语言处理将句子或概念彼此关联。到目前为止，我只与NLTK和Stanford-NLP合作来帮助我的项目，但我对替代的开源解决方案持开放态度。以下面的George Orwell文章()为例。

浏览 3提问于2013-10-28得票数 0

1回答

公司如何处理不断变化的自然语言

、

也许这是个错误的假设也许有人可以澄清。然而，我的问题是，他们如何处理新的词汇表被添加？例如，每当一个新的哈希标签成为趋势时，很可能或至少有可能在此之前嵌入的词汇表中没有包含确切的字符串。既然嵌入词汇表不能在事实发生后改变，那么它们是否有可能每隔几个小时就重新训练一次模型呢？这似乎很难解决。

浏览 0提问于2022-02-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Smalltalk和tf-idf算法

有必要将TF-IDF应用于gensim LDA模型中的新文档吗？

使用Sklearn的TfidfVectorizer变换

如何模拟tf-国防军火花

如何在weka中将测试文档转换为训练词汇维度的向量？

scikit学习TfidfVectorizer的意义？

当我尝试使用python networkx对文本文档进行摘要时，出现错误‘增强迭代在100次迭代内收敛失败’)

如何在k-means聚类中使用tfidf值

需要创建IDF值的字典，将单词与其IDF值相关联

使用python中的余弦相似度返回与查询文档相比最相似的文档

scikit了解SelectPercentile TFIDF数据特征缩减

SVC文本分类- TypeError:不可散列类型：'csr_matrix‘

计算大熊猫的Tf-Idf分数？

用短语构建语料库

如何实现TF-IDF评分，并对某些术语进行额外加权

如何将TF-IDF与编辑距离或Jaro-winkler距离相结合

如何在单个文档中查找单词相关性？

在给定句子、关键词或主题的情况下提取相关文本

公司如何处理不断变化的自然语言

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐