在Spark Scala中将多列分解为单独的行

，可以使用Spark的内置函数和操作来实现。具体步骤如下：

导入Spark相关的库和模块：

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

创建SparkSession对象：

val spark = SparkSession.builder()
  .appName("Column Unpivot")
  .getOrCreate()

创建一个包含多列的DataFrame：

val df = spark.createDataFrame(Seq(
  ("Alice", 25, "New York"),
  ("Bob", 30, "London"),
  ("Charlie", 35, "Paris")
)).toDF("name", "age", "city")

使用Spark的内置函数和操作将多列分解为单独的行：

val unpivotedDF = df.selectExpr("name", "stack(2, 'age', age, 'city', city) as (attribute, value)")

这里使用了stack函数，将"age"和"city"两列分解为单独的行，新生成的DataFrame包含"name"、"attribute"和"value"三列。

显示结果：

unpivotedDF.show()

完整的代码示例：

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

val spark = SparkSession.builder()
  .appName("Column Unpivot")
  .getOrCreate()

val df = spark.createDataFrame(Seq(
  ("Alice", 25, "New York"),
  ("Bob", 30, "London"),
  ("Charlie", 35, "Paris")
)).toDF("name", "age", "city")

val unpivotedDF = df.selectExpr("name", "stack(2, 'age', age, 'city', city) as (attribute, value)")

unpivotedDF.show()

这样就可以将多列分解为单独的行，每行包含"name"、"attribute"和"value"三列。在实际应用中，这种操作可以用于数据清洗、数据转换等场景。

腾讯云相关产品和产品介绍链接地址：

腾讯云Spark服务：https://cloud.tencent.com/product/spark
腾讯云数据仓库TDSQL：https://cloud.tencent.com/product/tdsql
腾讯云数据湖分析DLA：https://cloud.tencent.com/product/dla
腾讯云数据集成服务DTS：https://cloud.tencent.com/product/dts
腾讯云数据传输服务CTS：https://cloud.tencent.com/product/cts

在Spark Scala中将多列分解为单独的行

scala、apache-spark、apache-spark-sql

我有一个如下结构的DFData1Col1,Data2Col1.我尝试过分解，但这导致了重复的行。

浏览 7提问于2021-06-04得票数 1

1回答

将RDD转换为Dataframe Spark

scala、apache-spark、apache-spark-sql、spark-dataframe

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark.mllib.li

浏览 2提问于2017-02-26得票数 2

2回答

Scala Spark将多列对分解为行

scala、apache-spark

如何将多列对分解为多行？我有一个包含以下内容的数据帧 client, type, address, type_2, address_2abc, home, 123 Street abc, business, 456 Street 我尝试使用下面的代码，但它返回了4条记录，而不是我想要的两条记录 df

浏览 41提问于2020-01-23得票数 3

回答已采纳

2回答

使用spark scala基于键值项将字符串列拆分成多列

scala、apache-spark

我有一个数据帧，其中一列包含几个'key=value‘格式的信息。几乎有30个不同的'key=value‘可以出现在该列中将使用4列来理解( _age，_city，_sal，_tag)0 A {_age=10sal=1000}2 C {_city=BC, tag=ABC} 如何将此字符串列转换为

浏览 5提问于2021-11-25得票数 0

2回答

Apache :从Row提取值的问题

scala、apache-spark、apache-spark-sql、apache-spark-dataset

我和星火的排课有很多问题。在我看来，排课是一门设计很差的课程。从Row提取值应该并不比从Scala列表中提取值更困难；但是在实践中，您必须知道列的确切类型才能提取它。您甚至不能将列转换为字符串；对于一个伟大的框架(如Spark )来说，这有多荒谬呢？在现实世界中，在大多数情况下，您不知道列的确切类型，而且在许多情况下，您有几十个或数百个列。下面是一个示例，向您展示

浏览 0提问于2018-03-23得票数 1

回答已采纳

1回答

Java.lang.IllegalArgumentException:要求失败:在Double中未找到列

scala、csv、cassandra、rdd、spark-cassandra-connector

我在spark工作，我有很多包含行的csv文件，一行看起来像这样：它可以包含更多或更少的字段，具体取决于csv文件每个文件对应一个cassandra表，我需要在其中插入文件包含的所有行，所以基本上我要做的就是获取行，拆分其元素并将其放入ListDouble中import com.datastax.spark

浏览 6提问于2018-01-29得票数 1

1回答

使用spark流解析Event Hub上的JSON消息

json、scala、apache-spark、azure-eventhub

我正在尝试解析通过EventHub流传输的JSON文件，我将消息正文转换为string，然后使用from_json，如下所示。我可以将整个JSON对象保存为增量表中的单个单元格(当我在下面的代码中将流写出df4时就会发生这种情况)，但是当我使用body.*或col(body.*)将json拆分为多个列时，我会得到一个错误。任何关于如何处理这个问题的建议。$spark$sql$catalyst$analysis$Analyzer$ResolveReferences$$expand(Anal

浏览 23提问于2021-12-02得票数 0

1回答

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

java、apache-spark、apache-spark-sql、apache-spark-mllib

我试图运行简单的逻辑回归程序在火花。我得到了这个错误:我试图包含各种语言来解决问题，但这并不是解决问题。java.lang.IllegalArgumentException:需求失败:列pmi必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是DoubleTypeat org.apache.spark.sql.types.StructType$$anonfun$apply$1.apply(StructType.scala:264

浏览 7提问于2017-06-30得票数 2

2回答

[Scala][Spark]：转换数据帧中的列，保留其他列，使用withColumn和map [错误:缺少参数类型]

scala、apache-spark、types、functional-programming、explode

, C++]| CA||Robert,,Williams| [CSharp,|CA ||Michael,Rose, |Spark |NJ | .toDF("Name&qu

浏览 11提问于2021-10-11得票数 2

1回答

StackOverflowError失败

apache-spark、pyspark、parquet、fixed-width

我计划在AWS Glue中将固定宽度转换为Parquet，我的数据大约有1600列，大约3000行。似乎当我试图写火花数据(在地板)，我得到了"StackOverflow“的问题。即使在count()、show()等情况下也会发现问题。我尝试调用cache()、重新分区()，但仍然看到这个错误。下面是我的代码 data_df = spar

浏览 8提问于2021-11-10得票数 0

回答已采纳

2回答

ColumnarBatch DataSource失败，并显示下推列

apache-spark

在使用与pruneColumns覆盖中提供的requiredSchema长度相同数量的ColumnVectors填充ColumnarBatch后，我在Spark内部得到了一个ArrayIndexOutOfBoundsException我怀疑Spark正在寻找与readSchema override返回的列模式一样多的ColumnVectors，而不是使用pruneColumns提供的模式。执行&qu

浏览 0提问于2018-08-07得票数 1

1回答

如何在Spark* (Scala)中将数组中的每一行分解为列？*

scala、dataframe、apache-spark、etl

我有一个Spark值，它只有一列‘DataFrame’，其中每一行都是一个长度相等的数组。我如何将这个单独的“value”列分解成多个列，这些列遵循这样的模式？

浏览 24提问于2021-07-24得票数 1

回答已采纳

2回答

使用scala统计spark数据帧中列组合的实例

scala、apache-spark、dataframe

我在scala中有一个名为df的spark数据帧，它有两列，即a和b，a列包含字母，b列包含数字，如下所示。a b g 0 g 0我可以使用以下命令获取不同的行它提供了以下内容：---------- g

浏览 2提问于2015-10-28得票数 9

回答已采纳

1回答

使用大量列保存数据的Pyspark故障

apache-spark、pyspark、apache-spark-sql、pivot、stack-overflow

当我们在Hortonworks集群上通过木星笔记本处理以下步骤时，我们遇到了一个奇怪的情况：在大表pivoted_df (列> 1

浏览 2提问于2018-08-06得票数 1

2回答

将稀疏特征向量分解为单独的列

scala、apache-spark、apache-spark-sql、apache-spark-mllib、apache-spark-ml

在我的spark DataFrame中，有一列包含了CountVectoriser转换的输出-它是稀疏向量格式的。我想要做的是将这列再次“分解”成一个密集的向量，然后是它的组成部分行(这样它就可以用于外部模型的评分)。{Vector, DenseVector, SparseVector}Caused by: java.lang.ClassC

浏览 12提问于2018-01-30得票数 2

回答已采纳

3回答

将不符合模式的行放入spark中

scala、apache-spark、filter、rows、drop

当前，我的表的架构是： |-- product_id: integer (nullable = true) |-- department_id: string (nullable = true) 我想在上面的表上应用下面的模式，并删除不遵循以下模式的所有行

浏览 6提问于2020-05-13得票数 2

回答已采纳

2回答

Scala :从csv读取具有空值的列的数据

scala、apache-spark、apache-spark-sql

csv文件，它有3列数据类型:String，Long，Date。(RDD.scala:313)at org.apache.spark.scheduler.Task.runThreadPoolExecutor.java:1142) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecu

浏览 1提问于2021-03-25得票数 0

1回答

在创建SQLContext时，火花壳会给出什么“警告:有一个不推荐的警告”？

scala、apache-spark、apache-spark-sql

我试图使用下面的命令在shell中创建SQLContext：我收到以下警告： warning: there was one deprecationwarning; re-run with -deprecation f

浏览 6提问于2017-05-08得票数 3

1回答

在少量的列和行上出现Spark* PCA OutOfMemory错误*

scala、apache-spark、out-of-memory、pca、apache-spark-mllib

我正尝试在一个有2168列和大量行的RowMatrix上执行Scala(使用Scala)。然而，我观察到，即使矩阵中只有2行(一个112KB的文本文件)，在相同的作业步骤中也总是会产生以下错误：我还观察到，无论RowMatrix中<e

浏览 0提问于2015-04-17得票数 2

1回答

在运行数据库连接时调用collectToPython时的StackOverflowError

pyspark、databricks、databricks-connect

当我试图检索一个列的最小值时，当另一个列有一个特定值时，我会遇到一个问题。类似地，Python堆栈跟踪只指向它失败的那一行，并且不提供任何有用的信息。数据帧非常小，1000行或更少。当直接在同一集群上运行代码时，该问题不会发生。我认为这应该与我本地机器上的Spark配置有关，但除了maxResultSize之外，我没有对Databricks Connect安装的默认值进行任何更改。顺便说一句，DB Connect安装在一个单

浏览 18提问于2021-11-26得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Spark Scala中将多列分解为单独的行

相关·内容

在Spark Scala中将多列分解为单独的行

将RDD转换为Dataframe Spark

Scala Spark将多列对分解为行

使用spark scala基于键值项将字符串列拆分成多列

Apache :从Row提取值的问题

Java.lang.IllegalArgumentException:要求失败:在Double中未找到列

使用spark流解析Event Hub上的JSON消息

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

[Scala][Spark]：转换数据帧中的列，保留其他列，使用withColumn和map [错误:缺少参数类型]

StackOverflowError失败

ColumnarBatch DataSource失败，并显示下推列

如何在Spark* (Scala)中将数组中的每一行分解为列？*

使用scala统计spark数据帧中列组合的实例

使用大量列保存数据的Pyspark故障

将稀疏特征向量分解为单独的列

将不符合模式的行放入spark中

Scala :从csv读取具有空值的列的数据

在创建SQLContext时，火花壳会给出什么“警告:有一个不推荐的警告”？

在少量的列和行上出现Spark* PCA OutOfMemory错误*

在运行数据库连接时调用collectToPython时的StackOverflowError

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐