文章/答案/技术大牛

发布

社区首页 >问答首页 >在主成分分析之后，sklearn cosine_similarity内存错误

问在主成分分析之后，sklearn cosine_similarity内存错误
EN

Stack Overflow用户

提问于 2020-03-30 23:39:10

回答 1查看 210关注 0票数 0

我有一个有9000行(文档)和1810个cols (术语)的文档-术语矩阵。我已经应用PCA进行降维，输出的是一个9000x200的矩阵。

我的目的是对这些数据进行聚类，下一步是应用一些距离度量，比如sklearn的cosine_similarity。

如果我直接在我的DT矩阵上运行cosine_similarity (这显然是稀疏的)，那么一切都很好。但是，如果我尝试对PCA得到的矩阵运行cosine_similarity，让我们称其为reducted_dtm，那么我在PyCharm中得到一个内存错误：

RecursionError: maximum recursion depth exceeded while calling a Python object
Process finished with exit code -1073741571 (0xC00000FD)

下面是我的代码(dtm是我的文档-术语矩阵，我的代码实际上接受转置后的术语-文档矩阵tdm作为输入)：

dtm = tdm.T
# scale dtm in range [0:1] to better variance maximization
scl = MinMaxScaler(feature_range=[0, 1])
data_rescaled = scl.fit_transform(dtm)

# Fitting the PCA algorithm with our Data
pca = PCA(n_components=n).fit(data_rescaled)
data_reducted = pca.transform(data_rescaled)

# for continuity with my pipeline I need to
# return the TDM, so i transpose again
dtm_reducted = pd.DataFrame(data_reducted)

# Here apply cosine similarity
cs = cosine_similarity(dtm_reducted)
cs_pd = pd.DataFrame(cs)

scikit-learn

sklearn-pandas

cosine-similarity

python

回答 1

Stack Overflow用户

发布于 2020-03-31 00:27:44

天哪，我意识到，实际上在我的代码中，我是从一个名为‘cosine_ cosine_similarity’的函数中调用cosine_similarity (sklearn)的。这导致了无限的递归循环。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60934156

复制

相似问题

问在主成分分析之后，sklearn cosine_similarity内存错误
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在主成分分析之后，sklearn cosine_similarity内存错误EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在主成分分析之后，sklearn cosine_similarity内存错误
EN