使用scikit linear_kernel进行TF-IDF计算时结果太大

、、、、

我正在读取一个大约60,000行的csv文件，并使用TfidfVectorizer.fit_transform，它生成一个矩阵大小(63098,9081)，然后应用linear_kernel，然后崩溃并返回错误, 3), min_df=100, stop_words='english')result = linear_kernel(tfidf_matrix, tfidf_matrix) 日志显示假设

浏览 44提问于2020-03-06得票数 2

1回答

聚类-如何根据选定的电影推荐电影？

、、、、

正如我的问题所述，我正在使用聚类算法。我一直在从IMDB集群电影，我有15个集群，每个集群包含一个类型组合。现在我在为推荐一部电影而挣扎，我该怎么做呢？目前，我只是以一种非常便宜的方式，只是预选一个集群的结果。

浏览 2提问于2022-06-26得票数 0

1回答

当使用linear_kernel或cosine_similarity for TfIdfVectorizer时，我会得到“内核死亡，重新启动”的错误。

、、

当使用linear_kernel或cosine_similarity用于TfIdfVectorizer时，我会得到“内核死亡，重新启动”的错误。我正在对一些文本数据(如下面的示例)运行TfID方法向量器和fit_transform的scikit学习函数，但是当我想计算距离矩阵时，我得到了“内核死亡，重新启动”的错误。无论我使用的是cosine_similarity函数还是linear_kernel函数： tf = TfidfVectorizer(ana

浏览 0提问于2018-03-10得票数 6

2回答

应用scikit学习和手工计算的tf-下手矩阵值的差异

、、、

我正在使用scikit-learn来查找tf-idf值。D1 = "The sky is blue." D3 0.0000000 tf-idf tf-idf tf-idfimportTfidfVectorizer

浏览 0提问于2014-06-04得票数 8

2回答

Python sklearn TfidfVectorizer:在查询之前向量化文档以进行语义搜索

、、

我想使用TF-IDF运行语义搜索。这段代码可以工作，但在大型文档语料库上使用时速度非常慢： search_terms = "my query" vectorizer我想知道如何才能提前完成向量化语料库的大量工作，并将结果保存在“索引文件”中。因此，当我运行查询时，剩下的唯一要做的事情就是向量化查询中的几个单词，然后计算</

浏览 39提问于2021-06-16得票数 1

2回答

Sklearn和gensim的TF-IDF实现

、、

我一直在尝试确定一组文档之间的相似度，我正在使用的方法之一是与TF-IDF结果的余弦相似度。Sklearn和gensim使用原始计数作为TF，并对结果向量应用L2范数。它们最终是否会提供更好的结果，用于集群或其他目的？编辑(这样问题就更清楚了)：规范化最终结果与规

浏览 1提问于2017-05-22得票数 1

1回答

如何计算TF-IDF

、

我想使用TF-IDF的余弦相似度方法来得到两个单词的语义相似度。首先，我想从wikipedia或word- text中提取这些单词的含义，然后对文本进行预处理并找到TF-IDF。当我在谷歌上搜索这个问题时，我发现为了找到TF-IDF，我们应该有一个训练集和测试集。在我的例子中，哪个是训练集，哪个是测试集？如何使用计算结果计算余弦相似度？

浏览 3提问于2012-10-06得票数 1

回答已采纳

1回答

如何在Apache Mahout中进行在线分类？

、、、

我有一个大数据集，我使用Apache Mahout来训练一个简单的分类器。我使用分类器对一堆文档进行分类(就像我的测试集一样)。我对文档进行分类的方法如下：我找到了测试文档的规范化tf-idf向量。但是，在对测试文档进行分类之后，我将收到更多要分类的文档，并且我需要首先计算新文档的tf-idf。一种解决方案是重新计算所有测试文档(旧文档和新文档)的tf-idf，然后对它们进行重新分类。在这种情况下

浏览 2提问于2015-07-03得票数 0

1回答

使用python中的余弦相似度返回与查询文档相比最相似的文档

、、、、

我有一组文件和一个查询doc.My，目的是通过与查询文档进行比较来返回最相似的文档，对于每个document.To使用余弦相似度，首先我要将文档字符串映射到vectors.Also，我已经创建了一个tf-idf函数来计算每个文档。vector1, vector2) / (math.sqrt(numpy.dot(vector1, vector1)) * math.sqrt(numpy.dot(vector2, vector2)))def tfidf(self, term, ke

浏览 1提问于2012-02-28得票数 4

1回答

使用scikit学习的项目描述之间的余弦相似性

、、、

我正在使用python2.7和scikit-学习找到项目描述之间的余弦相似性。df，例如：2hhj abc r 我做了以下程序：1ffg 1.0 0.8 0.1 2hhj 0.8

浏览 0提问于2016-02-18得票数 1

回答已采纳

1回答

我是否在k折cross_validation中使用相同的Tfidf词汇表？

、、、

我正在做基于TF-IDF向量空间模型的文本分类，我只有不超过3000 samples.For的公平评估，我正在使用5折交叉验证对分类器进行评估，但令我困惑的是，是否有必要在每次折叠交叉验证中重建TF-IDF也就是说，在每个折叠交叉验证中，我是否需要重新构建词汇表并重新计算词汇表中的IDF值？目前，我正在基于scikit-learn工具包进行TF-IDF变换，并使用SVM训练我的分类器。IDF值我正在对此TF-IDF

浏览 1提问于2017-09-02得票数 12

1回答

使用Gensim更新TF-IDF

、、、

您好，我正在使用Gensim来查找文档之间的相似度，因此我对文档进行TF-IDF并计算余弦相似度。当我有新文档时，我可以使用index[tfidfvec]计算这个文档与以前文档的相似度，但是这样TF-IDF不会更新，并且在相似度计算中不考虑新词。有没有什么解决方案可以快速更新TF-IDF而无需重新计算整个矩阵，或者对我的问题有什么最好的解决方案？

浏览 2提问于2018-12-26得票数 2

1回答

在tf-idf中，哪种方式是正确的？拟合所有，然后转换训练集和测试集，或者拟合训练集，然后转换测试集

、、、、

1.匹配训练集，然后转换测试集vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english')X_test = vectorizer.transform(data_test.data)import nu

浏览 12提问于2021-04-02得票数 0

1回答

特征向量:计算训练集与测试集的权重

、、

我正在使用支持向量机进行文本分类，但基本上我对测试集的特征向量的计算感到困惑。例如:在特定单词"apple“的训练集中，文档频率是5。对于测试集，我应该使用值5来表示"apple”

浏览 2提问于2013-04-21得票数 2

回答已采纳

2回答

在K-Means聚类中使用词干提取

、、

这是我所做的：我应该在哪里使用词干部分？我是不是应该先计算词干，然后计算词干的tf-idf？使用词干提取不会降低结果吗？

浏览 2提问于2013-07-18得票数 1

4回答

在python中使用朴素贝叶斯进行文档分类

、、

我正在做一个使用python中的朴素贝叶斯分类器进行文档分类的项目。我已经使用了nltk python模块来做同样的事情。这些文档来自路透社数据集。我执行了词干提取和停用字消除等预处理步骤，并继续计算索引项的tf-idf。我使用这些值来训练分类器，但准确率非常低(53%)。我应该做些什么来提高准确率？

浏览 2提问于2012-05-09得票数 2

回答已采纳

2回答

使用tfidf作为功能

、、、、

我想使用n-gram对两组文档进行分类。一种方法是使用tfidf提取每个文档的重要单词，然后生成如下所示的csv文件： document, ngram1, ngram2, ngram3, ..., label 1, 0.0, 0.0, 0.0在此之后，我可以计算每个ngram在每个文档中的出现次数，但我不确定这是最好的方法。请提供您建议的解决方案。

浏览 30提问于2021-02-08得票数 0

0回答

TF-IDF和余弦相似度的替代方法(比较不同格式的文档)

、、、

目前，代码的工作方式如下：2)对于每个职业(例如“数据分析师”)，将该职业的职务列表的处理文本合并到一个文档中 3)计算职业文档内各技能的TF-IDF在此之后，我不确定我应该使用哪种方法来根据用户的技能列表对职业进行排名。我见过的最流行的方法是将用户的技能也视为文档，然后计算技能文档的TF-IDF，并使用余弦相似度之类的东西来计算技能文档和每个职业文档之间的相似度。对我来说，这似乎不是理想的解决方案

浏览 8提问于2017-01-03得票数 3

回答已采纳

1回答

比较SparkMlib和Scikit-收集数据帧后学习

、

我对SparkMlib的使用感到困惑，因为在大多数情况下，数据结构仍然是“局部”密集/稀疏的向量/矩阵。

浏览 0提问于2016-03-02得票数 0

5回答

scikit learn中的TFIDFVectorizer是如何工作的？

、、

我正在尝试使用scikit learn中的TfIDFVectorizer类来获取某些文档中有特色的单词。它创建了一个tfidf矩阵，其中包含所有文档中的所有单词及其分数，但它似乎也计算了常见单词。the 0.316648in 0.186404his 0.140998 我可能不能完全理解它，但据我所知，tf-idf当我半手工计算tf/idfs时，使用NLTK并<em

浏览 2提问于2016-04-23得票数 31

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

聚类-如何根据选定的电影推荐电影？

当使用linear_kernel或cosine_similarity for TfIdfVectorizer时，我会得到“内核死亡，重新启动”的错误。

应用scikit学习和手工计算的tf-下手矩阵值的差异

Python sklearn TfidfVectorizer:在查询之前向量化文档以进行语义搜索

Sklearn和gensim的TF-IDF实现

如何计算TF-IDF

如何在Apache Mahout中进行在线分类？

使用python中的余弦相似度返回与查询文档相比最相似的文档

使用scikit学习的项目描述之间的余弦相似性

我是否在k折cross_validation中使用相同的Tfidf词汇表？

使用Gensim更新TF-IDF

在tf-idf中，哪种方式是正确的？拟合所有，然后转换训练集和测试集，或者拟合训练集，然后转换测试集

特征向量:计算训练集与测试集的权重

在K-Means聚类中使用词干提取

在python中使用朴素贝叶斯进行文档分类

使用tfidf作为功能

TF-IDF和余弦相似度的替代方法(比较不同格式的文档)

比较SparkMlib和Scikit-收集数据帧后学习

scikit learn中的TFIDFVectorizer是如何工作的？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐