当产生嵌套arrays_zip数据时，Spark DataFrame的输出将列名替换为"0“、"1”

文章/答案/技术大牛

发布

1回答

我使用spark sql函数arrays_zip结合flatten将数据从相同长度的内部数组的结构数组转换为结构数组。printSchema显示的正是我想要的。然而，df输出丢失了原始列名，并将它们替换为通用列名"0“、"1”、"2“等，无论是Parquet格式还是Avro格式。我喜欢输出<

浏览 36提问于2019-08-26得票数 2

3回答

Spark -将平面数据帧映射到可配置的嵌套json模式

、、、

我有一个5-6列的平面数据帧。我想嵌套它们，并将其转换为嵌套的dataframe，这样我就可以将其写入拼图格式。但是，我不想使用case类，因为我要尽可能保持代码的可配置性。1 0 我的输出：第1行： { "ID-2": 23, "frui

浏览 14提问于2019-04-25得票数 0

回答已采纳

1回答

如何使用scala将csv字符串解析为火花数据？

、、、、

我想将包含字符串记录的RDD转换为Spark，如下所示。模式行不在同一个RDD中，而是在另一个变量中：所以，现在我的问题是，如何使用上述两种方法，在星火中创建一个数据文件？然而，这并不完全是我所需要的，我也无法找到在我的情况下修改这段代码的方法。非常感谢你的帮助。

浏览 1提问于2018-05-02得票数 1

回答已采纳

1回答

将TSV格式转换为JavaRDD

、

我需要实现一个Java程序来计数在给定索引上具有相同列值的元组。命令行参数为输入路径输出路径。输入的是一个TSV文件的格式：注册(入学号码，姓氏，名字，讲座，学期)。3456 Downe Sid Data Mining WiSe16 import org.apache.spark.api.java

浏览 0提问于2019-12-13得票数 1

回答已采纳

1回答

如何将numpy数组元素转换为spark* RDD列值*

、、

到密集数组的转换是由x.vector.toArray()映射调用执行的(如下所示)。我似乎想不出，如何将密集的numpy数组元素放入Spark DataFrame的单独列中。(我不是在介绍熊猫。)如何将此RDD转换为7列数据帧，由一个字符串列和6个整数列组成？问题是RDD tuple有2列，但我需要在DataFrame中有7列。列数是动态确定的，我将列名放在col

浏览 0提问于2018-06-12得票数 0

1回答

检查拼图scala spark上是否存在嵌套数据？

、、、

因此，我有一个包含嵌套数据的拼图文件，如下所示。我想在scala中使用spark进行处理： { "id": 1, "age": 1,def get: DataFrame = { shee

浏览 12提问于2019-08-09得票数 0

回答已采纳

1回答

火花转换Pandas df到S3

、、、、

如何将Pandas以一种方便的方式转换成可以写入s3的数据。 .format("com.databricks.spark.csv") .save("123.csv")

浏览 0提问于2017-01-03得票数 0

回答已采纳

1回答

我正在使用Scala中的Spark，希望将现有的数据集(dataframe)转换为包含嵌套结构的新表。示例输入: columnA columnB columnC columnD columnE 示例输出: columnA columnB columnC columnF:{columnD，columnE}(创建一个同时包含D和E作为嵌套结构的新列) 转换columnA-C很简单，因为我可以使用.wit

浏览 25提问于2021-08-12得票数 0

1回答

Spark如果使用DataFrameNaFunctions ()创建映射，则来自RDD.collectAsMap的替换函数无法工作。

、、

在DataFrameNaFunctions中，我使用replace函数将数据格式中的列的值替换为Map中的列。当使用RDD.collect()将数据转换为Map时，.toMap(如下面所示)可以很好地工作，我将其称为方法1。13 more fields] 但是，当<

浏览 4提问于2021-02-24得票数 1

回答已采纳

3回答

如何在Spark中分配和使用列标题？

、、、、

我正在读取下面的数据集。我的文件包含50+字段，我希望为每个字段分配列标题，以便稍后在脚本中引用。DataFrame是去这里的路吗？ PS -菜鸟到火花。

浏览 2提问于2016-04-14得票数 7

8回答

如何在Spark* 2 Scala中将Row转换为json*

、、、

有没有一种简单的方法可以将给定的Row对象转换为json？找到了关于将整个数据帧转换为json输出的内容：Spark Row to JSON 但我只想把one Row转换成json。下面是我想要做的伪代码。更准确地说，我将json读取为Dataframe中的输入。我正在生成一个新的输出，它主要基于列，但使用一个json字段来

浏览 150提问于2017-01-12得票数 10

回答已采纳

1回答

在Apache Spark* Scala中将嵌套的json with array展平为单行数据帧*

、

我正在尝试将下面的json扁平化成一个单行的数据帧。我已经看过很多文章，展示了如何使用数组将复杂的/嵌套的json对象展平为多行。但是，我不想将json展平为多行。我只想要一个如输出所示的单行数据帧。数组索引将转换为列名。我如何在Apache Spark Scala中实现这一点？name":"BMW", &

浏览 39提问于2021-08-26得票数 1

1回答

spark dataframe根据条件从多列中选择值

、

浏览 3提问于2019-11-25得票数 0

2回答

Spark:如何将数据帧Array[String]更改为RDD[Array[String]]

、、

我以DataFrame array<string>的身份处理事务我想将其更改为RDD[Array[string]]，但是当我将其更改为RDD时，它被更改为org.apache.spark.rdd.RDD[org.apache.spark.sql.Rowsam: RDD[Array[Stri

浏览 14提问于2017-01-11得票数 1

7回答

如何更改火花数据中的列位置？

、、、

我想知道是否可以更改列在dataframe中的位置，实际上是否可以更改架构？准确地说，如果我有一个像[field1, field2, field3]那样的数据文件，并且我想得到[field1, field3, field2]。如何移动一个或多个列，即:如何

浏览 4提问于2016-06-29得票数 47

回答已采纳

3回答

Pyspark:将多个数组列拆分为行

、、、、

我有一个数据帧，它有一行和几列。其中一些列是单个值，其他列是列表。所有列表列的长度都相同。我希望将每个列表列拆分为单独的行，同时保持任何非列表列的原样。--+---------+---------+---+# +---+---------+---------+---++--c列执行explode操作，最终得到的数据帧的长

浏览 2提问于2016-12-08得票数 78

回答已采纳

2回答

Pandas:归一化数据时获取0和NaNs

、

我在Pandas中规范化我的数据时遇到了一些问题。我已经创建了一个模型，并试图使用它来预测。17 18 19 20 21 22 所以我丢失了我的列名，我的值都是0。最后，我尝试从原始numeric_df中添加回旧的列名，如下所示： numeric_df_normalized = pd.DataFrame(nu

浏览 1提问于2017-08-01得票数 1

1回答

在pyspark数据帧的数据类型中进行不同的计数

、

我需要一个函数来在pypspark dataframe中获取类似以下内容：变量类型：数字:4分类:4日期:1

浏览 18提问于2019-10-17得票数 0

2回答

为spark.read()从另一个数据集中查找要选择的列- Scala

、、

我有一个Dataset[Year]，它有以下模式：有任何方法来生成当前架构的集合吗？我试过：但结果是：Print -> List([01,01,2022], [31,01,2022])我知道，使用一个映射，我可以调整

浏览 5提问于2022-03-22得票数 1

回答已采纳

1回答

使用case类和列名别名使用反射的Spark* Dataframe模式定义*

、、、、

我的Spark脚本遇到了一个小问题。基本上，我有原始数据，在分组和计数之后进行聚合，等等，我希望将输出保存为特定的JSON格式。编辑：当我从源dataframe中选择列名有别名的Array[org.apache.spark.sql.Column]数据时，在试图将行映射到case类时使用列名(实

浏览 1提问于2016-12-20得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云