使用scala从spark中的标量中减去向量列

文章/答案/技术大牛

发布

1回答

、、

我使用了Movielens 2000万数据集，其中包含名为rating .csv(UserId，MovieId，Rating)的文件.I应用交替最小二乘(ALS)，它在10个拼花地板文件中输出userId我想使用z- Dimensinality Reduction方法对featureVector进行归一化。我想从常量标量2.484中减去向量(FeatureVector)，将值除以1.8305，并将值保存在拼图文件中。features

浏览 20提问于2019-10-11得票数 0

1回答

多变量梯度下降的矢量化

、

我一直在做Andrew Ng的机器学习课程的家庭作业1。但我坚持我的理解，他在向量化多变量梯度下降时所说的话。他的方程表示如下: theta := theta - alpha*f这就是我感到困惑的地方，我知道h( xi )-y(i)可以重写为theta*xi，其中Xi表示一行特征元素(1xn)，theta表示产生标量的列(nx1)，然后从y

浏览 1提问于2017-01-21得票数 1

1回答

如何从scala的标量中减去向量？

、

我有一个包含两个列(id，.I)的拼图文件，它希望从标量中减去特征，并将输出除以另一个标量。df.withColumn("features", ((df("features")-constant1)/constant2)) 要求失败:列数不匹配。

浏览 3提问于2019-10-12得票数 0

1回答

apache火花理解密集向量

、

我的问题基于的代码。为什么我们必须将下面的向量定义为密集向量？在每个向量中只有3个元素的情况下，定义稠密向量有什么帮助。为什么我们不能把它们当作向量呢？

浏览 2提问于2016-04-10得票数 0

回答已采纳

1回答

用于机器学习的Apache mllib.linalg向量与spark.util向量的差异

、、、

我正在尝试在spark和scala中实现神经网络，但无法执行任何向量或矩阵乘法。Spark提供了两个向量。Spark.util向量支持点运算，但已弃用。mllib.linalg向量不支持scala中的操作。如何使用mllib在spark scala中执行<e

浏览 0提问于2016-01-20得票数 8

1回答

计算Spark中两列之间的余弦距离

、、

我正在使用Python & Spark来解决一个问题。我在Spark dataframe中有包含两列的Dataframe，每一列都包含一个numeric(例如，double或float)类型的标量。我想将这两列解释为向量，并计算它们之间的余弦相似度。到目前为止，我只发现了可以在数据帧单元中的密度向量上使用的</

浏览 32提问于2020-07-14得票数 0

回答已采纳

1回答

用createDataFrame创建星火矢量列

、、、、

我可以使用向量列和DataFrame方法创建一个星火toDF。") root |-- userFeatures: vector (nullable= true) res5: org.apache.spark.sql.types.StructType = StructType(StructF

浏览 0提问于2018-05-13得票数 1

1回答

Scala - Filter Col X from Vector

我有一个scala对象，如下所示-res20: Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramescala> f1.printSchema |-- features: vector (nullable = true) res23: Array[org.apache

浏览 0提问于2017-03-24得票数 0

1回答

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

、、、

我试图运行简单的逻辑回归程序在火花。我得到了这个错误:我试图包含各种语言来解决问题，但这并不是解决问题。java.lang.IllegalArgumentException:需求失败:列pmi必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是DoubleType，更新从dataset中删除了string value属性，该数据集是label。:128) at scala.collection.AbstractMap.g

浏览 7提问于2017-06-30得票数 2

1回答

Spark Dataframe的过滤操作

、

我有一个Spark，我希望根据一个特定列的匹配值从它们中选择几个行/记录。我想我可以使用过滤器操作或在映射转换中选择操作来实现这一点。但是，我想针对那些在应用过滤器时没有选择的行/记录更新一个status列。那么，如何知道和更新未被选中的行的列值？

浏览 0提问于2018-07-25得票数 1

2回答

将稀疏特征向量分解为单独的列

、、、、

在我的spark DataFrame中，有一列包含了CountVectoriser转换的输出-它是稀疏向量格式的。我想要做的是将这列再次“分解”成一个密集的向量，然后是它的组成部分行(这样它就可以用于外部模型的评分)。vector type, however, 'features' is of vector type.; 现在看起来可能是Cou

浏览 12提问于2018-01-30得票数 2

回答已采纳

3回答

本征:从向量中减去标量

、

在使用本征库时，我遇到了一个错误，我所要做的就是从特征：：VectorXf中减去一个标量。因此，我的代码如下所示：#define MATRIX_TYPE Eigen::MatrixXf 最后一行将导致

浏览 4提问于2016-02-28得票数 13

回答已采纳

2回答

尝试从第一个元素中减去列向量中的每个元素，并在列向量中生成结果。

、

我试图使用循环从同一列向量中的第一个元素中减去列向量的元素。假设我把x = [2;3;4;5;6;7;8]作为列向量，我想从3减去2，然后从4.....and减去2，直到最后从8减去2我<em

浏览 1提问于2014-09-06得票数 0

回答已采纳

1回答

在apache spark中，如何在groupBy()之后将mllib Vector列收集到一个列表中？

、、、

我在Java8中使用Spark。我有一个数据帧，其中一列包含一个mllib.linalg.Vector。我希望将数据帧中的另一列(例如ID列) groupBy，并将特征向量"collect_list“到列表中。我得到了下面的错误。我不明白为什么。这是一个泛型操作，为什么它关心列中数据的类型？它适用于标量数字或字符串等，但似乎不适用于ml

浏览 13提问于2017-01-12得票数 2

回答已采纳

3回答

如何在Spark中创建正确的分类数据框架

、、、

我试图使用运行随机森林分类，但我在创建正确的数据帧输入到管道时遇到了问题。加载这个csv文件(让我们称之为sample.csv)可以由完成，如下所示：默认情况下，所有列都是作为字符串导入的可以在RandomForestClassifier中设置label列和features，但是我有4个列作为预测器(特性)，而不仅仅是一个。我

浏览 4提问于2015-06-24得票数 35

回答已采纳

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

" val Date = "Date"} 然后，我想按列对

浏览 2提问于2018-01-11得票数 2

回答已采纳

1回答

如何在DataFrame中获取矢量

、

利用SparkML TF-以色列国防军算法得到一些特征向量.现在我想在"idfFeatures“列中得到向量。val vectors = allDF.select("idfFeatures").map{ vectorvectors.foreachString，则会有另一个bug： scala.MatchError: [(262144,[622,4200,7

浏览 0提问于2016-11-16得票数 0

回答已采纳

1回答

将RDD转换为Dataframe Spark

、、、

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark.mllib.linalg.Vect

浏览 2提问于2017-02-26得票数 2

2回答

熊猫/Python:替换多列中的多个值

、、

总之，我有一个分析性csv文件，包含190列和902行。我需要在几列(确切地说是18列)中重新编码值，从当前的1-5 Likert缩放到0-4 Likert缩放。我试过使用替换：但这会引发一个值错误：“不允许用重叠的键和值替换”df['job_perf1'] = d

浏览 4提问于2015-12-22得票数 1

回答已采纳

点击加载更多