在Apache Spark Scala中，如何从CSV填充DataFrame中的Vectors.dense？

在Apache Spark Scala中，可以使用Spark的DataFrame API和MLlib库来从CSV填充DataFrame中的Vectors.dense。

首先，需要导入相关的Spark库和类：

import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.functions._

然后，创建一个SparkSession对象：

val spark = SparkSession.builder()
  .appName("CSV to DataFrame")
  .master("local")
  .getOrCreate()

接下来，读取CSV文件并创建一个DataFrame：

val csvPath = "path/to/csv/file.csv"
val df = spark.read.format("csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load(csvPath)

假设CSV文件的结构如下：

col1,col2,col3
1.0,2.0,3.0
4.0,5.0,6.0

现在，我们可以使用withColumn方法将CSV中的列转换为Vectors.dense：

val vectorCol = "features"
val inputCols = df.columns.filter(_ != vectorCol)

val dfWithVectors = df.withColumn(vectorCol, udf((cols: Seq[Double]) => Vectors.dense(cols.toArray)).apply(array(inputCols.map(col): _*)))

在上述代码中，我们首先定义了一个vectorCol变量来存储生成的向量列的名称，然后使用inputCols变量来存储除了向量列之外的所有列。接下来，我们使用withColumn方法和自定义的UDF（User Defined Function）来将CSV中的列转换为Vectors.dense。最后，将转换后的DataFrame存储在dfWithVectors变量中。

现在，dfWithVectors中的每一行都包含一个Vectors.dense对象，可以在后续的Spark MLlib操作中使用。

这是一个使用Apache Spark Scala从CSV填充DataFrame中的Vectors.dense的示例。请注意，这只是一个简单的示例，实际情况可能会根据数据的结构和需求进行调整。

带有DataFrame API的Apache Spark MLlib在createDataFrame()或read().csv(...)

、、、、

在一个独立的应用程序中(在java8上运行，Windows10使用spark-xxx_2.11:2.0.0作为jar依赖项)，下面的代码会给出一个错误：Dataset<Row>logData = spark_session.createDataFrame(Arrays.asList( new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2(SessionStat

浏览 4提问于2016-08-03得票数 1

回答已采纳

1回答

Apache注册一个UDF返回的数据

、、

我有一个返回数据的UDF。就像下面的那个res3: org.apache.spark.sql.DataFramepredict_churn", outerpredict _)java.lang.UnsupportedOperationException: Schema for type org.<e

浏览 3提问于2016-12-20得票数 3

回答已采纳

1回答

在Apache Spark Scala中，如何从CSV填充DataFrame中的Vectors.dense？

、、

世界, (1.0, Vectors.dense(0.0, 1.1, 0.1)), (0.0, Vectors.dense(2.0, 1.3, 1.0)),)).toDF("label", "feat

浏览 18提问于2016-09-23得票数 0

2回答

如何将scala向量转换为spark ML向量？

、、、

我有一个scala.collection.immutable.Vector类型的向量，我想把它转换成org.apache.spark.ml.linalg.Vector类型的向量。例如，我想要如下所示的内容；val scalaVec = Vector(1,2,3)注意，我可以

浏览 13提问于2017-02-24得票数 2

回答已采纳

1回答

如何将双倍数组的数据转换为向量？

、

fList: org.apache.spark.sql.DataFrame = [features: array<double>] +----------------------------------fList: org.apache.spark.sql.DataFrame = [features: vector]

浏览 1提问于2017-11-29得票数 3

回答已采纳

1回答

SPAK1.6.2与scala2.10.6没有可用的TypeTag

、、

我正试图从那里运行的案例。val sqlContext = new SQLContext(sc)val dataset: DataFrame = sqlContext.createDataFrame\com.te\KMeansExample.scala Error:Error:line (18)No TypeTag available for (Int, org.apache.spark.mllib.linalg.

浏览 2提问于2016-09-19得票数 1

回答已采纳

2回答

(Spark)对象{name}不是package org.apache.spark.ml的成员

、、、

我正在尝试使用scala在apache spark上运行自包含的应用程序，示例如下：import org.apache.spark.ml.classification.LogisticRegression) }Build.sbt

浏览 0提问于2016-10-27得票数 9

回答已采纳

1回答

流K-意为Scala:获取输入字符串的java.lang.NumberFormatException

、、、

当我从一个包含双值的目录读取CSV数据并在其上应用流式K-均值模型时，如下所示，40.7476，-73.987140.751{DataFrame，SparkSession}导入org.apache.spark.sql.types._ 导入/

浏览 0提问于2018-07-24得票数 0

回答已采纳

1回答

如何计算数据中每一行到常数参考数组的欧几里德距离

、、

我有一个dataframe，它是从有512列(所有浮点值)的拼花文件创建的。import org.apache.spark.ml.feature.VectorAssembler import

浏览 1提问于2018-04-17得票数 2

回答已采纳

1回答

在Spark-Scala中，如何将数组列表复制到DataFrame中？

、

我熟悉Python，我正在学习Spark-Scala。= spark.createDataFrame(Seq( (0.2, Vectors.dense(1.0, -1.0)),：val my_a = gspc17_df.collect().map{row => Seq(row(2),V

浏览 6提问于2016-09-25得票数 0

1回答

LabelledPoint中决策树更改标签的火花加载数据

、、、

我试着在中为决策树做一个例子数据集采用LIBSVM格式，当我尝试时，这两个类都有标签+1.0和-1.0import org.apache.spark.mllib.util.MLUtils我试过

浏览 2提问于2017-09-01得票数 2

回答已采纳

1回答

无法在简单示例中从spark运行RandomForestClassifier

、、、、

我尝试从RandomForestClassifier包(1.5.2版)运行实验性的spark.ml。我使用的数据集来自中的示例。, Vectors.dense(2.0, 1.0, -1.0)), (1.0, Vectors.dense(0.0, 1.2(SparkSubmit.scala) 当函数试图计算列"label&quo

浏览 4提问于2015-11-26得票数 4

回答已采纳

1回答

将Spark的DataFrame转换为RDD[Vector]

、、、

当我尝试使用以下代码将Spark的DataFrame转换为RDD[org.apache.spark.mllib.linalg.Vector]时： Seq((0.1, 0.2,0.4)) ).toDF(&qu

浏览 29提问于2017-01-18得票数 2

回答已采纳

1回答

用createDataFrame创建星火矢量列

、、、、

我可以使用向量列和DataFrame方法创建一个星火toDF。= true) res5: org.apache.spark.sql.types.StructType = StructType(StructField我不知道如何用createDataFrame方法创建向量列。在VectorType中没有类型。这不管用： val rows = spark.sparkContext.parallelize

浏览 0提问于2018-05-13得票数 1

2回答

Apache火花机学习-无法让估计示例工作

、、

我很难从Spark文档中获取机器学习代码中的任何一个示例，并将它们作为Java程序实际运行。无论是我对Java、Maven、Spark (或者最有可能是这三种知识)的有限知识，我都找不到有用的解释。;import org.apache.spark.sql.Row; public c

浏览 1提问于2015-09-16得票数 2

回答已采纳

1回答

使用Spark或pyspark或python的dat文件

、、、

我目前正在使用hql将数据从配置单元表卸载到文本文件中。因为它花费了太多的时间。我想去spark或pyspark.I。我是spark/ please的新手。你能帮我解决这个问题吗?

浏览 11提问于2019-10-04得票数 0

1回答

为Spark中的DateType模式定义DataFrame转换

、

我正在从CSV文件中读取DataFrame，其中第一列是事件的日期和时间。 at org.apache.spark.sql.execution.datasources.csv.CSVTypeC

浏览 1提问于2016-08-11得票数 5

回答已采纳

1回答

如何用“未找到类型”修复Scala错误

、

我是Scala的新手，只是想在星火中学习。现在我正在编写Scala应用程序，将csv文件从hadoop加载到dataframe中，然后我想在该dataframe中添加一个新列。有一个函数来填充那个新列的内容，为了测试函数--从csv文件中大写列，csv文件只包含一个列: emp_id和它的字符串。该函数在对象TestServic

浏览 1提问于2020-03-12得票数 0

回答已采纳

2回答

如何从Spark* ML随机森林中获取类对应的概率*

、、

我一直在使用org.apache.spark.ml.Pipeline完成机器学习任务。尤其重要的是要知道实际的概率，而不仅仅是预测的标签，我很难得到它。在这里，我正在做一个随机森林的二进制分类任务。我想输出标签"Yes“的概率。概率作为管道输出存储在DenseVector中，例如0.69，0.31，但我不知道哪个对应于“是”(0.69或0.31?)。我想应该有某种方法可以从labelInd

浏览 0提问于2016-02-26得票数 11

1回答

火花放电中矢量间的SquaredDistance

、、

我试图在星火中使用平方距离函数，但似乎没有任何效果。我尝试了Vector.sqdist，但是得到了这个错误"sqdist不是scala.collections的成员.“(但文档显示它是我导入的org.apache.spark.mllib.linalg.Vector ()的一个成员)。/* SimpleApp.scala */ import org.apache.spark.SparkCo

浏览 2提问于2015-11-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Apache Spark Scala中，如何从CSV填充DataFrame中的Vectors.dense？

相关·内容

带有DataFrame API的Apache Spark MLlib在createDataFrame()或read().csv(...)

Apache注册一个UDF返回的数据

在Apache Spark Scala中，如何从CSV填充DataFrame中的Vectors.dense？

如何将scala向量转换为spark ML向量？

如何将双倍数组的数据转换为向量？

SPAK1.6.2与scala2.10.6没有可用的TypeTag

(Spark)对象{name}不是package org.apache.spark.ml的成员

流K-意为Scala:获取输入字符串的java.lang.NumberFormatException

如何计算数据中每一行到常数参考数组的欧几里德距离

在Spark-Scala中，如何将数组列表复制到DataFrame中？

LabelledPoint中决策树更改标签的火花加载数据

无法在简单示例中从spark运行RandomForestClassifier

将Spark的DataFrame转换为RDD[Vector]

用createDataFrame创建星火矢量列

Apache火花机学习-无法让估计示例工作

使用Spark或pyspark或python的dat文件

为Spark中的DateType模式定义DataFrame转换

如何用“未找到类型”修复Scala错误

如何从Spark* ML随机森林中获取类对应的概率*

火花放电中矢量间的SquaredDistance

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐