我有一个庞大的数据(文本)语料库,我已经将其转换为稀疏术语文档矩阵(我使用scipy.sparse.csr.csr_matrix来存储稀疏矩阵)。我希望为每个文档找到前n个最近的邻居匹配。我希望Python scikit-learn库中的NearestNeighbor例程(准确地说是sklearn.neighbors.NearestNeighbor)可以解决我的问题,但是使用空间分区数据结构(如KD trees或Ball trees )的高效算法不能处理稀疏矩阵。只有蛮
我有一个稀疏矩阵(881900,76656)。Sprase matrix Dataframe with column(highlighted) of interest 我的数据帧和稀疏矩阵都有相同的行数,但没有共同的列。稀疏矩阵是我从tf-idf情感分析过程中得到的输出 您能指导我是否可以在python中合并这两个对象,在合并时,我认为我应该确保数据帧中的每个条目都与稀疏矩阵的相应条目对齐。
我有一个数据文件存储一个大型matlab稀疏矩阵(Matlab7.3),需要在我的python程序中使用。我使用h5py加载这个稀疏矩阵,发现有3种数据结构与稀疏矩阵相关联。假设稀疏矩阵的名称为M,3种数据结构为M' data ',M‘’ir‘,M’‘jc’。最初我认为M‘in’和M‘’jc‘存储非零项的行索引和列索引,但我刚刚发现在M’‘jc’中存在一些值大于稀疏矩阵的行数。有