我有一个庞大的数据(文本)语料库,我已经将其转换为稀疏术语文档矩阵(我使用scipy.sparse.csr.csr_matrix来存储稀疏矩阵)。我希望为每个文档找到前n个最近的邻居匹配。我希望Python scikit-learn库中的NearestNeighbor例程(准确地说是sklearn.neighbors.NearestNeighbor)可以解决我的问题,但是使用空间分区数据结构(如KD trees或Ball trees )的高效算法不能处理稀疏矩阵。只有蛮力算法才能处理稀疏矩阵(这在我的情况
我有一个稀疏矩阵(881900,76656)。Sprase matrix Dataframe with column(highlighted) of interest 我的数据帧和稀疏矩阵都有相同的行数,但没有共同的列。稀疏矩阵是我从tf-idf情感分析过程中得到的输出 您能指导我是否可以在python中合并这两个对象,在合并时,我认为我应该确保数据帧中的每个条目都与稀疏矩阵的相应条目对齐。