在Pyspark中将稀疏向量转换为密集向量_如何在pyspark中将密集向量转换为数据帧？_在pyspark中将向量类型转换为双精度类型 - 腾讯云开发者社区

python、pyspark、dtype

我有一个稀疏的向量列，我通过UDF将它转换成密集向量。我想将向量值的类型从float32转换为float64 (PySpark稠密向量标准dtype是float64)。

浏览 4提问于2022-07-12得票数 -1

2回答

在PySpark中将密集向量转换为稀疏向量

pyspark

在PySpark中有没有从密集向量创建稀疏向量的内置方法？

浏览 2提问于2017-05-26得票数 1

0回答

在Pyspark中将稀疏向量转换为密集向量

apache-spark、pyspark、apache-spark-mllib、apache-spark-ml

我有一个稀疏向量，如下所示[SparseVector(13, {0: 1.0,{0: 1.0, 1: 1.0, 3: 1.0, 4: 1.0, 7: 1.0}), SparseVector(13, {1: 1.0, 2: 1.0, 5: 1.0, 11: 1.0})] 我尝试在pyspark2.0.0中将其转换为密集向量<

浏览 5提问于2016-12-26得票数 6

回答已采纳

2回答

VectorAssembler只输出到DenseVector？

apache-spark、pyspark

我目前正在将一组列转换为一列向量，然后使用StandardScaler函数将缩放应用于所包含的特性。编辑：我决定只使用一个UDF函数，它将稀疏向量转化为密集向量。有点傻但很管用。

浏览 6提问于2016-03-07得票数 9

回答已采纳

1回答

稀疏向量与密集向量PySpark

python、apache-spark、machine-learning、pyspark、sparse-matrix

我如何知道是否应该在PySpark中使用稀疏或密集的表示？我理解它们之间的区别(稀疏只通过存储非零的索引和值来节省内存)，但是从性能上讲，有什么通用的启发式方法来描述什么时候使用稀疏向量而不是密集的向量呢？是否有一个一般的“截止”维数和0的百分比值，超过这通常是更好地使用稀疏向量？若否，我应如何作出决定？谢谢。

浏览 2提问于2018-07-17得票数 4

回答已采纳

1回答

密集向量列到稀疏向量列

apache-spark、pyspark

我有一个独特的情况，我需要从DenseVector转到稀疏向量列。我正在尝试实现我在这里找到的SMOTE技术：，但是在第44行，由于一个错误，我不得不将它从min_Array[neigh][0] - min_Array[i][0]改为DenseVector(min_Array

浏览 12提问于2020-02-07得票数 0

回答已采纳

2回答

IllegalArgumentException:列的类型必须为struct<type:tinyint，大小为:int、indices:array<int>、values:array<double>>，但实际为双精度。‘

apache-spark、pyspark、apache-spark-ml

我正在尝试使用两列之间的内置函数来查找菱形统计数据： r = ChiSquareTest.test(df, 'feature1

浏览 1提问于2020-04-06得票数 8

回答已采纳

2回答

稀疏矩阵与稠密矩阵的向量矩阵乘积差

python、numpy、scipy、sparse-matrix

在一个简单的向量矩阵乘法中，当使用scipy.sparse矩阵而不是稠密矩阵时，得到不同的结果/输出格式。例如，我使用以下密集矩阵和向量：from scipy import sparsemat.T.dot(vec) # array([ 1, 5, 13, 25, 16])我同意，如果向量

浏览 1提问于2016-10-29得票数 0

回答已采纳

2回答

embedding_column在tensorflow中做了什么

tensorflow、machine-learning、embedding

从文档中看，它似乎是在使用嵌入矩阵将像稀疏输入向量这样的单一编码转换为密集向量。但这与仅使用完全连接层有何不同？

浏览 0提问于2018-03-12得票数 2

1回答

如何在csr_matrix中获得列的平均值和标准差？

python、numpy、scipy、sparse-matrix

我有一个稀疏的988x1向量(csr_matrix中的列)是通过scipy.sparse创建的。有没有一种方法可以在不将稀疏矩阵转换为稠密矩阵的情况下获得其均值和标准差？numpy.mean似乎只适用于密集向量。

浏览 0提问于2013-03-29得票数 8

回答已采纳

1回答

比较SparkMlib和Scikit-收集数据帧后学习

apache-spark、apache-spark-mllib

我对SparkMlib的使用感到困惑，因为在大多数情况下，数据结构仍然是“局部”密集/稀疏的向量/矩阵。收集RDD并将其转换为局部向量/矩阵向量并应用SparkMLib与收集RDD到numpy向量并应用Sckit-learn有什么不同？SparkMlib如何获得比Sckit-learn更好的性能？

浏览 0提问于2016-03-02得票数 0

1回答

spark 1.6.1 python 3.5.1构建朴素贝叶斯分类器

python-3.x、apache-spark、naivebayes

<stdin>", line 1, in <module> File "c:\spark-1.6.1-bin-hadoop2.6\spark-1.6.1-bin-hadoop2.6\python\pysparkx = _convert_to_vector(x) File "c:\spark-1.6.1-bin-hadoop2.6\spark-1.6.1-bin-hadoop2.6\python\pyspark

浏览 9提问于2016-04-06得票数 1

2回答

FlinkML 0.10.1使用稀疏向量进行训练的多元线性回归

vector、sparse-matrix、logistic-regression、apache-flink、flinkml

全,java.lang.IllegalArgumentException

浏览 4提问于2016-02-04得票数 1

2回答

将稀疏枕木矩阵加载到现有的numpy稠密矩阵中

python、numpy、scipy、numerical-computing

假设我还有一组与numpy矩阵相同维的枕稀疏矩阵。有时，我希望将其中一个稀疏矩阵转换为一个密集矩阵，以执行一些向量化操作。我是否可以将这些稀疏矩阵中的一个加载到A中，而不是每次我想将稀疏矩阵转换为密集矩阵时重新分配空间？.toarray()方法可以用于枕稀疏矩阵，它似乎没有可选的密集数组参数，但可能还有其他方法。

浏览 0提问于2012-01-27得票数 1

回答已采纳

2回答

基于cuSPARSE的稀疏加密集矩阵运算

matrix、cuda

使用cuSPARSE可以添加稀疏矩阵和稠密矩阵吗？在cuBLAS中，我只是把矩阵当作向量来处理，然后使用axpy。cuSPARSE确实有用于稀疏/密集向量的axpy，但由于稀疏向量和矩阵具有不同的存储结构，因此不能用于矩阵。

浏览 2提问于2015-09-21得票数 1

回答已采纳

1回答

尝试并行化scikit learn中的参数搜索会导致"SystemError: PyObject_Call中没有错误的空结果“

python、scikit-learn

我使用的是scikit Learn14.1中的sklearn.grid_search.RandomizedSearchCV类，运行以下代码时出现错误：X_scaled = min_max_scaler.fit_transform(X.toarray()) parameters = {'kernel':'rbf', 'C':scipy.stats.expon(scale=100)

浏览 0提问于2014-05-31得票数 1

1回答

apache火花理解密集向量

vector、apache-spark

我的一般理解是，当大多数元素为0时使用稀疏向量，当很少元素为0时使用密集向量。稀疏向量易于压缩。为什么我们必须将下面的向量定义为密集向量？在每个向量中只有3个元素的情况下，定义稠密向量有什么帮助。为什么我们不能把它们当作向量呢？

浏览 2提问于2016-04-10得票数 0

回答已采纳

1回答

如何在Scala Spark中将稀疏向量转换为密集向量？

scala、apache-spark、apache-spark-mllib

我有一个稀疏向量：我需要将其转换为密集向量(应该能够看到所有453个值)。

浏览 1提问于2016-02-21得票数 6

回答已采纳

1回答

Python中的稀疏-密集乘法

python、scipy、sparse-matrix

我使用的是Python 3.23，我想把一个稀疏的向量和一个密集的矩阵相乘。首先将稀疏向量展开为密集向量，然后进行乘法，这种想法从任何角度来看都是愚蠢的，除非是mem管理，直到实际展开。另外，有没有人知道让SciPy将一维矩阵保持在稀疏模式的好方法？我唯一使用过的(诚然)是三个向量(x，y，值)的经典表示法，所以我不得不使用np.ones(len(...))才能让它正常工作。

浏览 1提问于2012-11-01得票数 0

回答已采纳

1回答

使用ML管道进行字符串匹配时抛出错误，无法执行用户定义的函数($anonfun$1：(vector) => array<vector>)

pyspark、string-matching、fuzzy-search

我正在尝试对两个数据帧进行字符串匹配。假设dataframe1包含X个句子和dataframe2 Y个句子。我需要检查一下，Dataframe1中的任何句子都与Dataframe2匹配。我正在尝试使用ML管道，如下所示： RegexTokenizer( pattern="", inputCol="name", outputCol="tokens", minTokenLength=1

浏览 2提问于2019-04-11得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在PySpark中更改向量列的d类型？

在PySpark中将密集向量转换为稀疏向量

在Pyspark中将稀疏向量转换为密集向量

VectorAssembler只输出到DenseVector？

稀疏向量与密集向量PySpark

密集向量列到稀疏向量列

IllegalArgumentException:列的类型必须为struct<type:tinyint，大小为:int、indices:array<int>、values:array<double>>，但实际为双精度。‘

稀疏矩阵与稠密矩阵的向量矩阵乘积差

embedding_column在tensorflow中做了什么

如何在csr_matrix中获得列的平均值和标准差？

比较SparkMlib和Scikit-收集数据帧后学习

spark 1.6.1 python 3.5.1构建朴素贝叶斯分类器

FlinkML 0.10.1使用稀疏向量进行训练的多元线性回归

将稀疏枕木矩阵加载到现有的numpy稠密矩阵中

基于cuSPARSE的稀疏加密集矩阵运算

尝试并行化scikit learn中的参数搜索会导致"SystemError: PyObject_Call中没有错误的空结果“

apache火花理解密集向量

如何在Scala Spark中将稀疏向量转换为密集向量？

Python中的稀疏-密集乘法

使用ML管道进行字符串匹配时抛出错误，无法执行用户定义的函数($anonfun$1：(vector) => array<vector>)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐