如何在Spark DataFrame中访问VectorUDT列的元素？_如何访问DataFrame列中的元素_如何在Spark DataFrame中设置列的格式 - 腾讯云开发者社区

、、

我在Spark中有一个RDD，其中的对象基于case类： ExampleCaseClass(user: User, stuff: Stuff) 我想使用Spark的ML管道，所以我将其转换为Spark数据帧。作为管道的一部分，我希望将其中一列转换为其条目为向量的列。由于我希望该向量的长度随模型的不同而变化，因此应该将其作为特征转换的一部分构建到管道中。所以我尝试定义一个Transformer，如下所示： class MyTransformer extends Transformer { val uid = "" val num: IntParam = new Int

浏览 2提问于2016-03-18得票数 6

1回答

在randomForest火花放电中安装数据

、、、

我有一个看起来像这样的DataFrame： +--------------------+------------------+ | features| labels | +--------------------+------------------+ |[-0.38475, 0.568...]| label1 | |[0.645734, 0.699...]| label2 | | ..... | ... | +--------------------+----

浏览 4提问于2017-06-02得票数 3

回答已采纳

1回答

如何在PySpark DataFrame中将ArrayType转换为DenseVector？

、、、、

我在尝试构建ML Pipeline时遇到以下错误 pyspark.sql.utils.IllegalArgumentException: 'requirement failed: Column features must be of type org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 but was actually ArrayType(DoubleType,true).' 我的features列包含一个浮点值数组。听起来我需要将它们转换成某种类型的向量(它不是稀疏的，所以是DenseVector?)。有没有办法直接在DataF

浏览 2提问于2016-08-19得票数 14

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

我可以从apache spark UDF返回一个Tuple2 (在java中)吗？

、、、

我需要一个UDF2，它接受两个参数作为输入，对应于两个类型为String和mllib.linalg.Vector的Dataframe列，并返回一个Tuple2。这可行吗？如果是，我如何注册这个udf()？ hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?); udf的定义如下： UDF2<String, org.apache.spark.mllib.linalg.Vector, Tuple2<String, org.apache.spark

浏览 11提问于2017-01-10得票数 1

回答已采纳

1回答

用createDataFrame创建星火矢量列

、、、、

我可以使用向量列和DataFrame方法创建一个星火toDF。 val dataset = Seq((1.0, org.apache.spark.ml.linalg.Vectors.dense(0.0, 10.0, 0.5))).toDF("id", "userFeatures") scala> dataset.printSchema() root |-- id: double (nullable = false) |-- userFeatures: vector (nullable = true) scala> dataset.schem

浏览 0提问于2018-05-13得票数 1

1回答

如何将org.apache.spark.mllib.linalg.VectorUDT转换为ml.linalg.VectorUDT

、、、、

我正在使用星星团2.0，我想将向量从org.apache.spark.mllib.linalg.VectorUDT转换为org.apache.spark.ml.linalg.VectorUDT。 # Import LinearRegression class from pyspark.ml.regression import LinearRegression # Define LinearRegression algorithm lr = LinearRegression() modelA = lr.fit(data, {lr.regParam:0.0}) 错误：要求失败:列特性必须是

浏览 5提问于2016-12-13得票数 6

1回答

(数组/ ML向量/MLlib向量) RDD到ML向量

、、、、

我需要将RDD转换为单列o.a.s.ml.linalg.Vector DataFrame，以便使用ML算法，特别是这种情况下的K-方法。这是我的RDD： val parsedData = sc.textFile("/digits480x.csv").map(s => Row(org.apache.spark.mllib.linalg.Vectors.dense(s.split(',').slice(0,64).map(_.toDouble)))) 我试着做答案暗示的事情，我想，因为你最终得到了一个MLlib向量，它在运行算法时会抛出一个不匹配的错误。现在如

浏览 0提问于2016-09-02得票数 2

回答已采纳

1回答

将字符串列转换为向量列Spark DataFrames

、、、、

我有一个Spark数据帧，如下所示： +-----------+-------------------+ | ID | features | +-----------+-------------------+ | 18156431|(5,[0,1,4],[1,1,1])| | 20260831|(5,[0,4,5],[2,1,1])| | 91859831|(5,[0,1],[1,3]) | | 206186631|(5,[3,4,5],[1,5]) | | 223134831|(5,[2,3,5],[1,1,1])| +-----

浏览 16提问于2016-08-01得票数 3

回答已采纳

1回答

用Java实现星火MLlib分类输入格式

、、、

如何将DTO的列表转换为Spark输入数据集格式我有DTO： public class MachineLearningDTO implements Serializable { private double label; private double[] features; public MachineLearningDTO() { } public MachineLearningDTO(double label, double[] features) { this.label = label; this.featu

浏览 5提问于2017-06-13得票数 0

回答已采纳

1回答

列特性必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7。

spark版本为2.2.0，scala版本为2.11。当我使用ml时，会发生以下错误：“列特性必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7。这是我的密码： import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ v

浏览 0提问于2018-04-09得票数 1

1回答

找到稠密向量的最大值，将其设置为1，其余的设置为0 [pyspark]

、、、

我有一个包含密集向量的DataFrame列。我希望将这些向量的最大值设置为1，并将其余的值替换为0。例如： +------+-------------+ | Col1| vector| +------+-------------+ |Modali|[1.0,2.0,3.0]| |assert|[4.0,9.0,3.0]| +------+-------------+ 我想把它变成： +------+-------------+ | Col1| vector| +------+-------------+ |Modali|[0.0,0.0,1.0]| |assert|

浏览 1提问于2017-08-31得票数 1

回答已采纳

2回答

如何在向量列中找到最大值的索引？

、、、

我有一个星火DataFrame，其结构如下： root |-- distribution: vector (nullable = true) +--------------------+ | topicDistribution| +--------------------+ | [0.1, 0.2] | | [0.3, 0.2] | | [0.5, 0.2] | | [0.1, 0.7] | | [0.1, 0.8] | | [0.1, 0.9] | +--------------------

浏览 12提问于2017-11-29得票数 4

回答已采纳

1回答

IncompatibleSchemaException:以Avro格式序列化时的意外类型VectorUDT

、、、、

我使用Spark为我的数据生成预测，然后以Avro格式将它们存储到HDFS中： val dataPredictions = myModel.transform(myData) val output = dataPredictions.select("is", "probability", "prediction") output.write.format("com.databricks.spark.avro").save(path) 我得到了以下例外： com.databricks.spark.avro.SchemaConvert

浏览 2提问于2017-03-16得票数 1

1回答

在Java中将CSV值转换为Spark Dataframe中的向量

、、、、

我有一个包含两列的CSV文件 id, features id列是一个字符串，而feature列是机器学习算法ie的一个逗号分隔的特征值列表。"1,4,5“我基本上只需要在值上调用Vectors.parse()来获得一个向量，但我不想首先转换为RDD。我想把它放到Spark Dataframe中，其中的features列是一个org.apache.spark.mllib.linalg.Vector 我正在使用databricks csv api将其读取到数据帧中，并尝试将features列转换为Vector。有人知道如何在Java中做到这一点吗？

浏览 3提问于2018-03-17得票数 0

1回答

自定义转换器中的Spark (Java) transformSchema()

、、、、

我想将我的自定义转换器与StandardScaler一起使用： VectorizerTransformer vectorizerTransformer = new VectorizerTransformer(field.getName()); pipelineStages.add(vectorizerTransformer); StandardScaler scaler = new StandardScaler() .setInputCol(vectorizerTransformer

浏览 0提问于2016-10-27得票数 1

1回答

不能将Spark中的向量用于DataFrame

、、

当我试图使用返回Vector的UDF时，Spark抛出以下异常： Cause: java.lang.UnsupportedOperationException: Not supported DataType: org.apache.spark.mllib.linalg.VectorUDT@f71b0bce 我如何在我的UDF中使用向量？星火版本为1.5.1。 UPD val dataFrame: DataFrame = sqlContext.createDataFrame(Seq( (0, 1, 2), (0, 3, 4), (0, 5, 6) )).toDF("key&#

浏览 0提问于2015-10-07得票数 1

回答已采纳

4回答

如何访问数组列中的值？

、、

我有一个只有一列的Dataframe该列的每一行都有一个字符串值数组： Spark2.2 Dataframe中的值 ["123", "abc", "2017", "ABC"] ["456", "def", "2001", "ABC"] ["789", "ghi", "2017", "DEF"] org.apache.spark.sql.DataFrame = [col: array] root |--

浏览 8提问于2017-12-01得票数 28

回答已采纳

1回答

声明包含org.apache.spark.ml.linalg.Vector的Dataframe:列的StructType

、、

我有一个名为df1的DataFrame，其方案如下： root |-- instances: string (nullable = true) |-- features: vector (nullable = true) |-- label: double (nullable = false) 其中features和label是从LabeledPoint获得的。我想生成一个新的DataFrame，但修改instances和features的内容。为了做到这一点，我写了以下代码： val schema2 = new StructType() .add("instances&#

浏览 17提问于2020-03-26得票数 0

回答已采纳

1回答

使用Spark ML时的VectorUDT问题

、、、

我正在编写一个要应用于向量(spark.ml.linalg.Vector)类型的Spark数据帧列的UDAF。我依赖于spark.ml.linalg包，因此我不必在数据帧和RDD之间来回切换。在UDAF中，我必须为输入、缓冲区和输出模式指定数据类型： def inputSchema = new StructType().add("features", new VectorUDT()) def bufferSchema: StructType = StructType(StructField("list_of_similarities", ArrayTy

浏览 1提问于2016-08-17得票数 8

回答已采纳

3回答

如何将数组(即列表)列转换为向量

、、、、

这个问题的简短版本！考虑下面的片段(假设spark已经设置为某些SparkSession)： from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) 注意，温度字段是一个浮子列表。我想将这些浮点列表转换为MLlib

浏览 9提问于2017-02-09得票数 75

回答已采纳

1回答

将写入JSON的MLLIB稀疏向量丢失格式

、、、

我正在为json编写一个(Java)。其中一个列是mllib稀疏向量。稍后，我将json文件读取到第二个Dataframe中，但是稀疏向量列现在是一个WrappedArray，而不是作为第二个数据帧中的稀疏向量读取。我的问题是:为了得到一个稀疏的向量列，而不是一个wrappedArray列，我可以在书写方或读取方做些什么吗？写作： initialDF.coalesce(1).write().json("initial_dataframe"); 阅读： DataFrame secondDF = hiveContext.read().json("initial_dataf

浏览 1提问于2016-06-15得票数 4

回答已采纳

1回答

SparseVector与DenseVector在使用StandardScaler时的比较

、、、、

我使用下面的代码来规范PySpark DataFrame from pyspark.ml.feature import StandardScaler, VectorAssembler from pyspark.ml import Pipeline cols = ["a", "b", "c"] df = spark.createDataFrame([(1, 0, 3), (2, 3, 2), (1, 3, 1), (3, 0, 3)], cols) Pipeline(stages=[ VectorAssembler(inputCols=

浏览 5提问于2016-12-21得票数 3

回答已采纳

1回答

出现数值数组错误的Fillna PySpark数据帧

、、

下面是我的Spark DataFrame的一个示例，下面是printSchema： +--------------------+---+------+------+--------------------+ | device_id|age|gender| group| apps| +--------------------+---+------+------+--------------------+ |-9073325454084204615| 24| M|M23-26| null| |-89653355

浏览 0提问于2017-06-07得票数 4

1回答

用PySpark将多个数字列安装到spark模型中

、、

我正在编写Spark1.6.2，我有一个包含102个专栏的DataFrame： f0, f1,....,f101 f0包含索引，f101包含标签，其他列是数字特性(浮动)。我想在这个spark-ml上训练一个随机森林模型( DataFrame )。因此，为了适应模型，我使用VectorAssembler输出了一个特性列。 from pyspark.ml.feature import VectorAssembler ignore = ['f0', 'f101'] assembler = VectorAssembler(inputCols=[x for x in

浏览 2提问于2017-06-02得票数 1

回答已采纳

2回答

如何将列声明为DataFrame中的分类特性，以便在ml中使用

、、、

如何声明DataFrame中的给定列包含分类信息？我有一个从数据库加载的Spark DataFrame。这个DataFrame中的许多列都有分类信息，但是它们被编码为Longs (为了隐私)。我想告诉火花-毫升，即使这一栏是数字，信息实际上是绝对的。类别的索引可能有一些漏洞，这是可以接受的。(例如列的值可以是1，0，0 ,4) 我知道存在StringIndexer，但是我更愿意避免编码和解码的麻烦，特别是因为我有很多列都有这种行为。我想找的东西如下所示 train = load_from_database() categorical_cols = ["CategoricalCol

浏览 4提问于2016-05-27得票数 5

回答已采纳

1回答

如何在scala中将Array[Long]转换为向量类型？

、、、、

我有这样的数据： +------+-----+-------------------+--------------------+ | Id|Label| Timestamp| Signal_list| +------+-----+-------------------+--------------------+ |A05439| 1|2014-05-20 05:05:21|[-116, -123, -129...| |A06392| 1|2013-12-27 04:12:33|[260, 314, 370, 4...| |A08192|

浏览 0提问于2017-10-23得票数 2

回答已采纳

1回答

Pyspark更新特征向量中的值

、、、

我正在构建文本分类器，并使用spark countVectorizer创建特征向量。现在，为了在BIDGL库中使用这个Vector，我需要将特征向量中的所有0转换为1。这是我的特征向量，它是一个稀疏向量： vectorizer_df.select('features').show(2) +--------------------+ | features| +--------------------+ |(1000,[4,6,11,13,...| |(1000,[0,1,2,3,4,...| +--------------------+ only sh

浏览 22提问于2019-02-09得票数 2

回答已采纳

1回答

缓存查询性能火花

、

如果我试图缓存一个巨大的DataFrame (例如:100 to表)，当我对缓存的DataFrame执行查询时，它会执行完整的表扫描吗？星星之火将如何索引数据。星火文件说： Spark可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()来使用内存中的列格式来缓存表。然后，Spark将只扫描所需的列，并将自动调整压缩，以尽量减少内存使用和GC压力。您可以调用spark.catalog.uncacheTable("tableName")从内存中删除表。我没有完全理解上面的语句，如果有人

浏览 8提问于2017-08-14得票数 2

1回答

如何利用PySpark对图像进行预处理？

、、、、

我有一个项目，我需要建立一个大数据体系结构(AWS S3 + SageMaker)概念的证明: 1)使用PySpark对图像进行预处理；2) 执行PCA；3) 训练一些机器或深度学习模型。我的问题是了解如何使用PySpark处理图像数据，无法提供满意的在线答案。因此，我认为任何答案/暗示都能吸引像我这样的初学者的广泛兴趣。类似的线程仍未回答. 如下所示，您可以找到我到目前为止尝试过的内容(在木星笔记本上使用Python3.8)： Creating火花会话与我的AWS S3的凭据 from pyspark.sql import SparkSession import sagemaker_pys

浏览 3提问于2021-09-16得票数 3

1回答

如何在星火中使用from_json()数据？

、、

我正在尝试从Databricks 3.5 (Spark2.2.1)中的dataframe中的json字符串创建一个数据集。在'jsonSchema‘下面的代码块中，有一个StructType，它具有正确的json-字符串布局，它位于dataframe的'body’列中。 val newDF = oldDF.select(from_json($"body".cast("string"), jsonSchema)) 这将返回根对象所在的数据格式。 jsontostructs(CAST(body AS STRING)):struct 后面跟着模式中的字

浏览 0提问于2018-10-23得票数 0

回答已采纳

1回答

如何替换中的特定列多个值？

、、

我试图在Dataframe中替换或更新某些特定的列值，因为我们知道dataframe是不可变的，我试图将其转换为新的dataframe，而不是更新或替换。我尝试了dataframe.replace，正如在Spark中解释的那样，但是它给了我错误作为错误:值替换不是org.apache.spark.sql.DataFrame的成员我尝试在option.For下面传递我要传入的数组的多个值 val new_df= df.replace("Stringcolumn", Map(array("11","17","18","10

浏览 0提问于2017-03-22得票数 0

1回答

ClassDict (用于pyspark.mllib.linalg.DenseVector)的构造所期望的零参数

、、、、

我知道错误了构造ClassDict的预期零参数(用于pyspark.mllib.linalg.DenseVector) 通过尝试这样做：我有一个函数，我将其转换为udf，用于从dataframe转换列的值。如下所示： def func(vector): #does something return Vector.dense(vector) udfunc = udf(func, ArrayType(FloatType())) new_df = df.withColumn("vector",func(df.vector)) new_df.show()

浏览 0提问于2016-07-07得票数 7

回答已采纳

1回答

在Pyspark中使用UDF函数时，稠密向量应该是什么类型？

、、、、

我希望在pySpark中将列表更改为向量，然后使用此列进行机器学习模型的培训。但是我的星火版本是1.6.0，它没有VectorUDT()。那么，在我的udf函数中应该返回哪种类型呢？ from pyspark.sql import SQLContext from pyspark import SparkContext, SparkConf from pyspark.sql.functions import * from pyspark.mllib.linalg import DenseVector from pyspark.mllib.linalg import Vectors from py

浏览 1提问于2018-04-03得票数 8

回答已采纳

1回答

将Spark中的浮动列转换为VectorUDT

、、

我试图使用pyspark.ml.evaluation二进制分类标准，如下所示 evaluator = BinaryClassificationEvaluator(rawPredictionCol="prediction") print evaluator.evaluate(predictions) 我的预测数据框架如下： predictions.select('rating','prediction') predictions.show() +------+------------+ |rating| prediction| +------+-

浏览 0提问于2016-11-03得票数 2

回答已采纳

1回答

列特性必须是org.apache.spark.ml.linalg.VectorUDT类型

、、

我想在pyspark中运行这段代码(Spark2.1.1)： from pyspark.ml.feature import PCA bankPCA = PCA(k=3, inputCol="features", outputCol="pcaFeatures") pcaModel = bankPCA.fit(bankDf) pcaResult = pcaModel.transform(bankDF).select("label", "pcaFeatures") pcaResult.show(truncate= f

浏览 3提问于2017-06-01得票数 6

1回答

用Java在星火DataFrame中将数组转换为DataFrame

、、、、

我在运行Spark2.3。我想将下面的features列从ArrayType转换为DenseVector。我正在使用Java中的星火。 +---+--------------------+ | id| features| +---+--------------------+ | 0|[4.191401, -1.793...| | 10|[-0.5674514, -1.3...| | 20|[0.735613, -0.026...| | 30|[-0.030161237, 0....| | 40|[-0.038345724, -0...| +---+-----------

浏览 2提问于2018-10-22得票数 0

回答已采纳

1回答

如何在Java中从SparseVectors的RDD创建一个DataFrame

、、

我正在尝试将SparseVector的RDD转换为DataFrame。我在Scala和Python中做到了这一点，但从来没有在Java中这样做过，答案确实可以在中找到。我试图找到涵盖此主题的示例，但我找不到任何示例。尽管如此，它显然与Scala的工作方式相同，但我无法复制它。

浏览 1提问于2017-04-13得票数 0

2回答

如何将ML VectorUDT要素从.mllib类型转换为.ml类型

、

在2.0.0版本中使用pySpark ML对于一个线性回归的简单示例，我在新的ML库中得到一个错误。代码是： from pyspark.sql import SQLContext sqlContext =SQLContext(sc) from pyspark.mllib.linalg import Vectors data=sc.parallelize(([1,2],[2,4],[3,6],[4,8])) def f2Lp(inStr): return (float(inStr[0]), Vectors.dense(inStr[1])) Lp = data.map(f2Lp) te

浏览 1提问于2016-08-11得票数 8

1回答

将PySpark数据帧读取到包含VectorUDT列的Pandas中时出现问题

、、、、

我有一个PySpark表，其中的许多列都是VectorUDT类型的。这些列是使用PySpark中的OneHotEstimator函数创建的。我可以将这个表写到拼图文件中，但是当我尝试使用PyArrow将这个表读回到Pandas时，我得到了这个异常： ArrowNotImplementedError: Currently only nesting with Lists is supported. 有什么办法可以绕过这个问题吗？我不希望将每个VectorUDT列拆分成各自的列。

浏览 18提问于2019-06-10得票数 0

1回答

数字上的火花IDFModel

、

我想在“文档”内容是数字标识符(而不是文本)的数据上执行TF模型。所以我不想对它们进行散列，而是使用数字值。有什么简单的方法来产生org.apache.spark.mllib.linalg.VectorUDT吗？我必须写我自己的非散列HashingTF吗？还是我自己算得更简单？

浏览 2提问于2016-09-29得票数 1

回答已采纳

1回答

用Spark计算PCA时的IllegalArgumentException

、

我有一个包含id和features列的拼花文件，我想应用pca算法。 val dataset = spark.read.parquet("/usr/local/spark/dataset/data/user") val features = new VectorAssembler() .setInputCols(Array("id", "features" )) .setOutputCol("features") val pca = new PCA() .setInputCol("feature

浏览 3提问于2020-01-26得票数 2

回答已采纳

1回答

在apache spark中，如何在groupBy()之后将mllib Vector列收集到一个列表中？

、、、

我在Java8中使用Spark。我有一个数据帧，其中一列包含一个mllib.linalg.Vector。我希望将数据帧中的另一列(例如ID列) groupBy，并将特征向量"collect_list“到列表中。我得到了下面的错误。我不明白为什么。这是一个泛型操作，为什么它关心列中数据的类型？它适用于标量数字或字符串等，但似乎不适用于mllib Vector。有没有解决这个问题的办法？，也许是collect_list()之外的另一个函数？ No handler for Hive udf class org.apache.hadoop.hive.ql.udf.generic.Generic

浏览 13提问于2017-01-12得票数 2

回答已采纳

1回答

将矩阵从MongoDB加载/反序列化为pySpark，添加新的向量列

、、、

我正在学习星火，以便使用它的ML模块来构建分类器。我已经成功地使用了Pandas来完成这项任务，但是数据量已经增加了，现在它们不适合RAM了。我也有使用Dask的积极经验，但是它的机器学习库还没有准备好生产。我的数据存储在MongoDB中，包含用cPickle序列化的小图像。下面是创建它们的代码片段： import os import numpy as np import pymongo from bson.binary import Binary records = [] for file_path in file_paths: for r in file(fn):

浏览 4提问于2017-04-26得票数 0

回答已采纳

1回答

将udf应用于多列并使用numpy操作

、、、、

我有一个名为result的dataframe，我想应用一个udf来创建一个新列，如下所示： result = sqlContext.createDataFrame([(138,5,10), (128,4,10), (112,3,10), (120,3,10), (189,1,10)]).withColumnRenamed("_1","count").withColumnRenamed("_2","df").withColumnRenamed("_3","docs") @udf("float&

浏览 3提问于2019-09-30得票数 1

回答已采纳

2回答

LabeledPoint在pyspark.mllib中的类型转换误差，用于pyspark.ml中的线性回归模型

、

我有以下使用pyspark.ml包进行线性回归的代码。但是，当模型适合时，我得到了最后一行的错误消息： org.apache.spark.mllib.linalg.VectorUDT@f71b0bce.：U‘IllegalArgumentException:列特性必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 有没有人知道遗漏了什么？pyspark.ml中有LabeledPoint在pyspark.mllib中的替代品吗？ from

浏览 5提问于2017-02-14得票数 8

回答已采纳

1回答

将值添加到DenseVector中的PySpark中

、、、

我有一个DataFrame，我已经处理成这样： +---------+-------+ | inputs | temp | +---------+-------+ | [1,0,0] | 12 | +---------+-------+ | [0,1,0] | 10 | +---------+-------+ ... inputs是DenseVectors的一列。temp是一列值。我想用这些值追加DenseVector并创建一个列，但我不知道如何开始。有关此期望输出的任何提示： +---------------+ | inputsMerged | +-----------

浏览 4提问于2017-10-04得票数 2

回答已采纳

1回答

PySpark中稠密矢量的单元减法

、

我有一个星火数据，有两个列是密集的向量。我想要计算每个向量的元素的元素之间的差异(对于dataframe的每一行)。我怎么能这么做？

浏览 1提问于2018-08-27得票数 0

2回答

Deeplearning4j to spark管道:将字符串类型转换为org.apache.spark.mllib.linalg.VectorUDT

、、、

我有一个情绪分析程序，可以使用递归神经网络来预测给定的电影评论是正面的还是负面的。我正在使用Deeplearning4j深度学习库来实现这个程序。现在，我需要将该程序添加到apache spark管道中。这样做的时候，我有一个扩展org.apache.spark.ml.classification.ProbabilisticClassifier的类MovieReviewClassifier，我必须在管道中添加该类的一个实例。使用setFeaturesCol(String s)方法将建立模型所需的特征输入程序。我添加的功能是String格式的，因为它们是一组用于情感分析的字符串。但是这些特性应

浏览 3提问于2016-02-19得票数 1

1回答

Spark: GenericMutableRow不能转换为java.lang.Byte，并且<none>不是一个术语

、、

我正在尝试将Spark (v.1.6) DataFrame中的数据存储到Cassandra。我设法让页面上的示例运行起来，但是，我被自己的代码卡住了。考虑以下代码片段： case class MyCassandraRow(id : Long, sfl : Seq[Float]) df.map(r => MyCassandraRow( r.getAsLong(0), r.getAs[MySeqFloatWrapper]("sfl").getSeq()) ).saveToCassandra("keyspace", &#

浏览 2提问于2016-03-16得票数 2