将一个非常大的稀疏矩阵写入R中的文件_如何将正则矩阵转换为R中的稀疏矩阵？_从R中的文本构造稀疏矩阵 - 腾讯云开发者社区

numpy、matrix、scipy、sparse-matrix

我在R中有一个非常大且稀疏的矩阵，它是用“矩阵”包创建的，我想在python + numpy中处理。R对象是csc格式，如果我使用矩阵包中的函数writeMM导出它，输出如下所示： %%MatrixMarket matrix coordinate real general 4589 17366 160441 22 1 5.954510725783322 36 1 29.77255362891661 41 1 23.81804290313329 74 1 5.954510725783322 116 1 59.54510725783322 127 1 11.909021451566645 159

浏览 5提问于2015-07-23得票数 1

回答已采纳

4回答

在非常大的稀疏矩阵上对R中的k-means聚类？

r、cluster-analysis、sparse-matrix

我正在尝试在一个非常大的矩阵上做一些k-means聚类。矩阵大约是500000行x4000个cols，但非常稀疏(每行只有几个"1“值)。整个文件不适合内存，所以我把它转换成一个稀疏的ARFF文件。但是R显然不能读取稀疏的ARFF文件格式。我还有一个普通的CSV文件格式的数据。在R中有没有包可以有效地加载这样的稀疏矩阵？然后，我将使用集群包中的常规k-means算法来继续。非常感谢

浏览 0提问于2010-06-15得票数 9

1回答

Armadillo能有效地将稀疏矩阵和稀疏矩阵乘成稠密的结果吗？

c++、armadillo

我用Armadillo来解决一些线性代数问题。它有稀疏矩阵的SpMat<float>和稠密矩阵的Mat<float>。假设我有稀疏矩阵S_a和S_b，以及稠密矩阵D。我需要计算产生的S_a*S_b和S_a*D，结果在这两种情况下都会很密集。我可以将稀疏矩阵转换为密集矩阵，然后再进行乘法，但这将是效率低下的(这些矩阵非常大)。有没有办法让Armadillo在不执行中间转换步骤的情况下将结果存储到稠密矩阵中？

浏览 4提问于2017-10-24得票数 0

回答已采纳

1回答

尝试创建邻接矩阵时尚不支持图形错误长向量

r、matrix、igraph、adjacency-matrix、network-analysis

我正在尝试在R中执行社交网络分析，我在使用igraph包从非常大的矩阵创建邻接矩阵时遇到了一些问题。其中一个主要矩阵是10998555876个元素大小(82 Gb) -从具有176881行的数据集创建。我在运行时得到的错误： adjacency_matrix <- graph.adjacency(one_mode_matrix, mode = "undirected", weighted = TRUE, diag = TRUE) 如下所示： Error in graph.adjacency.dense(adjmatrix, mode = mode, weighted =

浏览 3提问于2019-09-27得票数 1

2回答

Sage中的稀疏矩阵

python、matrix、sparse-matrix、sage

所以我有一个非常大的矩阵，n= 70.000，充满了RDF。对于正常矩阵，这当然是不可能的。所以我想使用某种形式的稀疏矩阵，矩阵列中的元素在很多情况下都是0，或者所有相同的低RDF。例如： 0 | 0.1 | 0.2 | 0 0 | 0.1 | 0.2 | 0.1 0.1 | 0 | 0 | 0.1 0 | 0.1 | 0.2 | 0 在此示例中，第一列具有3乘以0，第二列为3乘以0.1，... 如何在Sage/Python中初始化这样的矩阵？

浏览 13提问于2019-04-21得票数 0

3回答

我可以使用Lapack来计算大型稀疏矩阵的特征值和特征向量吗？

lapack、eigenvector

如果我有一个1000乘以1000的方阵，Lapack能计算出这个矩阵的特征向量和特征值吗？如果可以，需要多长时间？10,000×10,000矩阵，甚至是1,000,000×1,000,000矩阵的情况又如何呢？请注意，这些将是主要由0填充的稀疏矩阵(矩阵将是表示社交网络的图)。Lapack中是否有处理稀疏矩阵的特殊过程？我看到了Arpack的建议。但是，这是否允许计算非常大的矩阵？

浏览 13提问于2010-07-21得票数 13

3回答

我想用python创建邻接矩阵

python

我有非常大的数据集，它几乎有450000行和两行，我想使用python计算邻接矩阵，因为之前我曾尝试在matlab中这样做，但由于数据值太大，它显示了内存错误。我的数据值也是从100开始到45000，任何人都可以在这个问题上帮助我，因为我是python的新手。我必须首先使用excel表格或记事本将文件导入python，然后计算邻接矩阵。

浏览 3提问于2010-04-14得票数 0

1回答

稀疏矩阵上R中的朴素贝叶斯模型

r、package

我有一个非常大的稀疏矩阵(使用sparse.model.matrix(~.- 1，数据=训练)，并希望在此基础上训练一个朴素贝叶斯模型。在R中有没有允许我这样做的包？我检查了e1071和klar，但两者似乎都不接受稀疏矩阵作为输入。除了glmnet之外，还有没有其他包可以接受稀疏矩阵，或者这是我唯一的选择？

浏览 0提问于2013-06-21得票数 4

4回答

R中稀疏矩阵的SVD

r、sparse-matrix、svd

我在R中有一个稀疏的Matrix，它显然太大了，我无法在上面运行as.matrix() (尽管它也不是非常大)。所讨论的as.matrix()调用位于svd()函数内部，所以我想知道是否有人知道不需要首先转换为密集矩阵的另一种奇异值分解实现。

浏览 3提问于2011-02-10得票数 10

回答已采纳

2回答

用于快速访问的索引兆行方阵

python、numpy、matrix、blaze

我有一些非常大的矩阵(不包括百万行的顺序)，这些矩阵是无法保存在内存中的，我需要在下降时间内访问这个矩阵的子样本(不到一分钟.)。我开始盯着hdf5和blaze，和numpy和熊猫在一起：但我觉得有点复杂，我不知道这是否是最好的解决办法。还有其他解决办法吗？谢谢编辑这里有一些关于我正在处理的数据类型的更多规范。矩阵通常是稀疏的(< 10%或< 25%的非零单元)。矩阵是对称的。我需要做的是：仅用于阅读的访问提取矩形子矩阵(大部分沿对角线，但也在外部)

浏览 2提问于2016-02-22得票数 4

1回答

在Matlab中处理大矩阵

matlab、matrix、sparse-matrix

序言我的框架是Matlab。我有一个非常大的数据矩阵M (size(M) = 30 20 30 20 51 300 )，我需要操作这个矩阵(计算一些关联，平均值，循环移动，插值等等)。！重要的！：这个矩阵的大部分元素是0或ones！我的问题是：，因为处理这样一个庞大的矩阵非常耗时，是否可以执行相同的操作，但是在这个矩阵的稀疏形式上呢？当然，我们不应该泄露任何关于零或1的信息(例如，计算平均值或不同元素之间的相关性)。还有其他方法来处理这些矩阵吗？(巨大的，主要是0和1) 提前感谢！

浏览 0提问于2013-10-14得票数 1

回答已采纳

2回答

C语言中的稀疏矩阵乘法

c、matrix、sparse-matrix、matrix-multiplication

我有两个矩阵市场格式的稀疏矩阵文件： row col val 1 1 3.0 1 2 1.0 2 3 2.0 etc... 目前，我已经将文件分成了6个数组： row_A[], col_A[], val_A[], row_B[] … 它们分别包含行索引、列索引和值。我想轻松地将这两个矩阵相乘，而不必首先将它们转换为密集矩阵格式。有没有这样做的算法？我在Quora上找到了这个伪代码，但我不确定它是不是最好的实现，或者它将如何在C：中实现 multiply(A,B): for r in A.rows: for c in A.rows[r]: fo

浏览 1提问于2018-10-26得票数 2

5回答

将PCA应用于非常大的稀疏矩阵

language-agnostic、machine-learning、sparse-matrix、pca

我正在用R做一个文本分类任务，我获得了一个大小为22490×12万的文档项矩阵(只有400万个非零条目，小于1%的条目)。现在，我想利用主成分分析( PCA )来降低维数。不幸的是，R不能处理这个庞大的矩阵，所以我将这个稀疏矩阵存储在一个文件中，格式为“matrix”，希望使用其他一些技术来进行PCA。因此，有人能给我一些有用的库(不管编程语言是什么)，它可以方便地用这个大规模矩阵进行主成分分析，或者自己做一个长和主成分分析，换句话说，首先计算协方差矩阵，然后计算协方差矩阵的特征值和特征向量。我想要的是计算所有PC(12万)，并只选择前N个人电脑，谁占90%的方差。显然，在这种情况下，我必

浏览 16提问于2012-05-23得票数 18

2回答

Matlab三维矩阵

matlab、sparse-matrix

我必须创建一个非常大的3D矩阵(例如：500000x60x60)。有没有办法在matlab中做到这一点？当我尝试的时候 omega = zeros(500000,60,60,'single'); 我得到一个out-of-memory错误。稀疏函数是没有选项的，因为它只适用于2D矩阵。那么，对于高维矩阵，有没有什么替代方法呢？

浏览 3提问于2012-09-28得票数 7

回答已采纳

1回答

如何使用HDF存储非常大的矩阵

python、matrix、hdf

我计划使用HDF来存储一个非常大的矩阵，类似于1e6x1e6的浮动。我需要成批地读取连续行或列的矩阵。我的问题是，是构造/调整HDF文件以使速度最大化的最佳方式是什么？以下几点：我估计在我的系统上读/写HDF中未压缩的全部矩阵大约需要5个小时。这是合理的，但不合理地存储矩阵未压缩，因为它将是几兆字节的大小。如果矩阵是稀疏的，压缩会导致读取速度比读取未压缩的密集矩阵更快吗？将矩阵分解成单独的子矩阵数据集会很烦人，因为这会使从原始矩阵读取一行/列或执行矩阵乘法之类的操作变得复杂。因此，如果可能的话，我想避免这样做(除非这给了我很大的速度优势)。在读了一次矩阵之后，我打

浏览 1提问于2014-04-15得票数 1

1回答

从生成器创建稀疏矩阵

python、scipy、sparse-matrix

我想要创建一个大的稀疏矩阵，在这个矩阵中，由于内存问题，它的源数据不能完全加载。您可能会认为磁盘上有一个非常大的文件，我们无法读取它。我想过了，但我找不到从生成器创建稀疏矩阵的方法。 from scipy.sparse import coo_matrix matrix1 = coo_matrix(xrange(10)) # it works. Create a sparse matrix with 9 elements. data = ((0, 1, random.randint(0,5)) for i in xrange(10)) # generator example matrix2 =

浏览 5提问于2014-10-08得票数 2

4回答

布尔值的轻量级矩阵

c、optimization、memory、boolean

我需要实现一个非常大的矩阵，比如标准C中的NxN。该矩阵必须存储真值表，即 matrix[i][j] = [true|false] 我知道我可以简单地使用int矩阵，或者如果使用C99，我可以使用boolean类型，但我正在寻找内存方面最轻量级的解决方案。

浏览 2提问于2012-02-15得票数 2

回答已采纳

2回答

用MATLAB将scipy.sparse.csr.csr_matrix转换为可读形式

matlab、scipy

我有一个scipy.sparse.csr.csr_matrix，它是TfidfVectorizer()类的输出。我知道我可以以这种方式访问这个矩阵的各个组成部分：所以如果我有这个矩阵 tf_idf_matrix = vectorizer.fit_transform(lines) 我可以在这里访问各个组件： tf_idf_matrix.data tf_idf_matrix.indices tf_idf_matrix.indptr 如何从Python中保存它--这样我就可以将它加载到MATLAB稀疏矩阵中？或者如何将其转换为密集数组，并将其保存为一个numpy.ndarray文本文件--这样我就

浏览 5提问于2013-12-31得票数 1

回答已采纳

1回答

从文件中直接读取一个密集矩阵到稀疏的numpy数组中？

python、arrays、numpy、matrix、scipy

我在文本文件中以标签分隔的格式存储了一个矩阵。它被密集地储存着，但我知道它很稀少。我想将这个矩阵加载到Python的稀疏格式中。矩阵非常大，因此执行scipy.loadtxt(...)，然后将结果的密集数组转换为稀疏格式，在中间步骤中将占用太多的RAM内存，因此这不是一种选择。

浏览 1提问于2016-03-03得票数 1

回答已采纳

1回答

如何有效地对scipy稀疏矩阵进行混洗，不管它是什么格式？

numpy、matrix、random、scipy、shuffle

如何对scipy稀疏矩阵的行进行混洗？有一个scikitlearn.utils.shuffle，但它返回一个新的矩阵，因此对于非常大的稀疏矩阵，混洗不是就地完成的，而是复制矩阵。有numpy.random.Generator.shuffle，但它似乎是work only for CSR matrices。如何有效地打乱scipy稀疏矩阵的行数，不管它是以什么格式存储在内存中的？

浏览 14提问于2020-12-02得票数 0

回答已采纳

1回答

Python pandas输出浮点数而不是整数

python、pandas、dataframe

我想要将一个矩阵(非常稀疏，有数百万个零和几个其他数字)作为熊猫数据帧保存到.csv文件中，但是数据帧将0保存为0.0 (浮点数而不是整数)，因此文件变得非常大。所以我想将0.0保存为0，以减小输出.csv文件的大小。我正在尝试类似这样的东西： import pandas table = [[0.88, 4], [0, 0.5]] pd = pandas.DataFrame(table, columns = ['C1', 'C2']) pd.to_csv('output.csv', index = False) pd 并获得输出： C1

浏览 37提问于2020-07-24得票数 0

2回答

使用MTJ/Netlib的矩阵乘法性能较慢(本机)

java、performance、math、matrix、mtj

我需要将5000x5000到20000x20000的大矩阵相乘。我在寻找一个具有稀疏矩阵但可以进行快速乘法的库时遇到了问题。首先，我已经阅读了上一个关于Java矩阵库()性能的问题。基于上面的答案，我决定使用JBLAS，因为它是最快的。在我的例子中，将一个5000x5000矩阵相乘大约需要50秒左右，这比Matlab慢得多，但仍然可以容忍。问题是矩阵可能非常大(高达20k乘以20k，甚至更多)，但它们通常是稀疏的。矩阵中只有30%的元素是非零的。JBLAS不提供任何稀疏矩阵实现，因此存储大而密集的矩阵所需的内存占用可能非常大。我尝试切换到MTJ/Netlib，因为它应该是基准测试中具有稀疏

浏览 6提问于2013-11-15得票数 6

1回答

如何在matlab中将稀疏矩阵保存到mat文件中

matlab、sparse-matrix

我想将两个稀疏矩阵Y和R保存到mat文件中。但是，当我运行以下代码时，我发现twomatrices.mat包含两个完整的矩阵，而不是稀疏矩阵。.mat文件是否只允许包含完整矩阵？ save('twomatrices.mat', 'Y', 'R');

浏览 0提问于2012-09-12得票数 1

回答已采纳

1回答

使用Nimfa的稀疏矩阵分解在隐式零的情况下非常慢

python、scipy、sparse-matrix、factorization

我正在尝试用python库分解非常大的矩阵。由于矩阵太大了，我无法在内存中以登斯格式实例化它，所以我改用。这个库有一个叫做的稀疏矩阵函数，这似乎就是我要找的。当我尝试它时，我遇到了严重的分解性能问题(不是内存表示，而是速度)，我还不能分解一个简单的10 x 95稀疏矩阵。下面是我构建测试矩阵的方法： m1 = lil_matrix((10, 95)) for i in xrange(10): for j in xrange(95): if random.random() > 0.8: m1[i, j] = 1 m1 = csc_matrix(m1) 这就是我

浏览 0提问于2013-05-25得票数 3

1回答

有效填充稀疏矩阵matlab

matlab、sparse-matrix

我正在处理一个非常大的稀疏矩阵： U = sparse(a,b) % a and b are very large 另一方面，存在有'a‘行的单元格Ind。在每一行中，都有一个“变量”元素数，例如： Ind{1} = [1 3 5 19 1000 1340] Ind{2} = [9 100 1500 1600 8000 b] ... Ind{a} = [3 5 6 90 1000 4300 5712 9480] 可以看到，Ind{i}中的最大索引数可以是'b‘。对于每个索引向量，还存在一个类似于'c‘的内容矩阵： c = [2 3 1 6

浏览 2提问于2015-11-20得票数 2

回答已采纳

1回答

稀疏矩阵R中的快速NMF

r、nmf

在Matlab中处理一个很大很稀疏的矩阵

macos、matlab、matrix、sparse-matrix

我有一个非常大和稀疏的矩阵，表示为一个CSV文件(67 GB)。是否可以在Matlab中加载和使用此矩阵？我可以使用64位版本的MAC操作系统计算机，8GB的RAM。我读过一些关于这个主题的文章，但我仍然不确定Mac上的Matlab64bit是否可以使用磁盘空间来分配矩阵，或者是否需要RAM中的所有内容，而且不管怎么说，如果使用这么大一部分磁盘空间会使事情几乎无法使用。

浏览 2提问于2014-07-16得票数 1

回答已采纳

4回答

什么是稀疏文件?我们为什么需要它？

file、filesystems、system、disk、sparse-file

什么是稀疏文件?我们为什么需要它？我能得到的唯一一件事就是它是一个非常大的文件，而且它是高效的(以in为单位)。它是如何高效的？

浏览 8提问于2017-03-31得票数 25

回答已采纳

2回答

Docker创建巨大的devicemapper文件。

debian、docker

今天，我注意到在备份过程中，对接器17.05在Debian拉伸上在/var/lib/docker/devicemapper/devicemapper/中创建了两个非常大的文件。 -rw------- 1 root root 100G Dez 8 22:50 data -rw------- 2 root root 2,0G Dez 7 01:22 metadata 我的问题是:我的服务器有一个120 GB的SSD，/分区是 root@server:/# df -h / Dateisystem Größe Benutzt Verf. Verw% Eingehän

浏览 0提问于2017-12-15得票数 3

2回答

如何将稀疏矩阵从Perl传递给R？

perl、r、sparse-matrix

我有一个非常稀疏的Perl矩阵(数组的数组)，其中undef的值等于零。它有10-1000行，最多100k列。看起来是这样的： $ARRAY1 = [ [ ( undef ) x 1069, 1, ( undef ) x 47, 1, ( undef ) x 11, 2, ( undef ) x 50, 1, ( unde

浏览 1提问于2010-11-05得票数 3

回答已采纳