PySpark -将数组结构转换为列名为我的结构

文章/答案/技术大牛

发布

1回答

、

我试图通过数组的列来转换我的结构数组，其中我想用；我的数据是这样的 root |-- contents_json}] |+--------------------------------------------+ <

浏览 6提问于2021-10-20得票数 0

1回答

Rails3.2模式转储将所有UUID列转换为文本，并使用postgres_ext gem破坏数组声明

、、、

将Ruby2.0.0-P195与的Rails 3.2.13和v0.3.1一起使用。我似乎经常在使用Rails的模式转储(而不是SQL结构转储)中遇到问题，在Rails中，模式转储程序将UUID列转换为文本列，并将数组转换为缺省值为"{}"的文本列。}" + t.text

浏览 1提问于2013-05-24得票数 5

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

1回答

如何实现自定义的Pyspark分解(用于结构数组)，1个分解中有4列？

、、、

我正在尝试在Pyspark中实现一个自定义的分解。我有4列，它们是具有几乎相同模式的结构数组(一列结构包含的字段比其他三列少一个)。对于我的DataFrame中的每一行，我有4列结构数组。列是学生、teaching_assistants、教师、管理员。学

浏览 22提问于2020-10-06得票数 3

回答已采纳

2回答

在pyspark中展平结构的数组

、、、

我使用spark-xml包将一个XML文件转换为dataframe。数据帧的结构如下： |-- results: struct (nullable = true) |category列(它可能会在categories下出现多次)： df.select((col('results.result.categories.category')).alias("resu

浏览 0提问于2020-02-24得票数 4

1回答

激发列中每个元素的scala笛卡儿积

、、、

我有一张数据文件，就像：a [p1,p2,p3]期望的产出是：p1p2 ap2 p3 a我做了一些研究，我认为将df转换为rdd，然后将flatMap与cartesian产品进行转换是解决这个问题的理想方法然而，我不能把它们结合在一起。谢

浏览 2提问于2018-09-24得票数 0

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。[2, 'b', {'c': 1, 'd':3}],内部列表中的第

浏览 1提问于2018-04-07得票数 1

1回答

如何在PySpark DataFrame中将列转置为行？

、、、

举个例子，我有这个DF +----+------+------+-------++----+------+------+-------+| 2 | d | e | f || id | key | value|

浏览 51提问于2021-04-15得票数 1

1回答

将列表列转换为嵌套结构列

、、、、

我正在尝试将一组丑陋的文本字符串转换为具有代表性的PySpark数据格式。最后一步是将包含字符串列表的列转换为包含嵌套行结构的列。对于列表中的每个字符串，我使用python字典理解将其规范化为相同的字段。当我试图通过列上的udf来转换它时，它会失败。我的<

浏览 2提问于2018-10-20得票数 1

回答已采纳

2回答

DataBricks:在arrays_zip函数中使用变量

、

我可以知道我们是否可以在arrays_zip函数中使用变量/数组吗？例如，我声明并数组array1="col1"，"col2“有没有人有这个想法？

浏览 0提问于2019-10-14得票数 0

1回答

Pyspark SQL:将表与结构数组转换为列

、、

我有一个包含2列(string、array<struct<type=string、cnt=int>>)的HIVE-table，如下所示：| id1 || {type=A，cnt=4}，{type=B，cnt=2}| id3 || {type=E，cnt=1} 我需要将它转换为包含分隔的int列的</e

浏览 0提问于2020-10-16得票数 0

0回答

PySpark: DataFrame -将结构转换为数组

、、、

浏览 1提问于2017-12-03得票数 2

回答已采纳

2回答

将数组列转换为PySpark数据帧中的结构数组

、、、、

我有一个包含3列的Dataframe | str1 | array_of_str1 | array_of_str2 || Matteo | [Size, Color] | [M, Red] | 我想添加一个结构类型中包含3列的数组列 | s

浏览 16提问于2020-01-06得票数 1

回答已采纳

1回答

如何访问pyspark* dataframe中的结构元素？*

、、

我有下面的模式，用于pyspark dataframe |-- maindata: array (nullable = true)给出df.select(F.col("maindata")).show(1,False)收到的特定行的一些数据04-06T13:02:08.050], [t7, 0, , 2019

浏览 6提问于2020-06-25得票数 1

回答已采纳

1回答

用数据库中的pyspark将纳秒值转换为日期时间

、、、

我正在尝试重新创建我已经用Python使用Databricks完成的一些工作。我有一个数据，其中有一个名为“time”的列，以纳秒为单位。在Python中，我使用以下代码将字段转换为适当的日期时间值： # Convert time field from nanoseconds into datetimedf["time"] = pd.to

浏览 5提问于2022-07-05得票数 0

回答已采纳

1回答

如何按列对pyspark中数据框进行分组，并获得以该列为键、以记录列表为其值的字典？

、、、

我有一个这样的数据框架- timeB | 2021-03-10 03:21:06 为此，我正在编写一个Gluejob。<em

浏览 0提问于2021-04-09得票数 0

2回答

如何在SWIFT2.0中将结构保存为NSUserDefaults

、、

我有一个名为Jar的结构，我想将它们的数组保存到NSUserDefaults中。以下是jar结构代码： let amount: Int self.name = name }我相信，为了能够保存它，

浏览 0提问于2015-09-19得票数 1

3回答

将JSON数组分解成行

、、、、

我有一个dataframe，它有两个列"ID“和"input_array”(值是JSON数组)。ID input_array2 [ {“A”: 800, “B”: 900} ]ID A B1 500 600我试过from_json，explode函数。但是数

浏览 13提问于2022-10-05得票数 -1

回答已采纳

2回答

Apache :无法将分组数据保存为CSV

、、、

我想做一件简单的事。我想把所有的事件统计成2分钟的时间戳。+--------------------+-----+但现在我写了，File "/usr/hdp/cu

浏览 1提问于2018-05-15得票数 1

回答已采纳

1回答

将字符串从K转换为数千等，并删除中字符串之间的空格。

、、

我想请求您的帮助，以转换字符串在一个列中的，Pyspark。例如，我有一个名为"df“的dataframe，它具有以下结构。我在这里要做的是：(1)将字符串从K转换为数千，M转换为数百万，B转换为数十亿，(2)删除“数字”列中字符串之间的空格，然后(3)将其数据类型更改为双倍。您可

浏览 1提问于2020-09-29得票数 0

点击加载更多