从pyspark dataframe中的数组列中删除结构

文章/答案/技术大牛

发布

1回答

、、

我想从dataframe (pyspark)中的数组(在array列中)中删除一个数组。import pyspark.sql.functions as F|2 |[[, 0], [C, 4], [D, 1],

浏览 18提问于2020-02-05得票数 1

回答已采纳

1回答

从CSV中将字符串数组读取为Pyspark中的数组

、、

我有一个包含如下数据的文件 ID|Arr_of_Str 2|["PQR", "ABC DEF"] 我想读这篇文章文件，但是当我使用，它将其作为字符串读取。|-- Arr_of_Str: array (nullable = true) |-- element: string (containsNull = true) 如何将字符串转换为字符串数组

浏览 45提问于2019-12-12得票数 2

回答已采纳

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

、、

这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示<e

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

在Dataframe中，如何根据条件从行中删除列？

、

当该行上的列值为零时，我想从行中删除该列。我不想从Dataframe中删除该列。仅当列值为零时，我才从该特定行中删除该列。我用的是Pyspark。

浏览 19提问于2020-04-09得票数 0

2回答

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。for item in row.json_object['obj']: # create a dictionary to represent each r

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

如何将numpy数组存储为PySpark DataFrame中的新列？

、、、、

我已经从np.select获得了一个numpy数组，我希望将其存储为PySpark DataFrame中的一个新列。我怎么能这么做？from pyspark.sql import SparkSessiondf_da

浏览 6提问于2022-05-25得票数 1

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。[2, 'b', {'c': 1, 'd':3}],内部列表中的第三个元素没有特定<

浏览 1提问于2018-04-07得票数 1

2回答

如何在PySpark中转换嵌套数据模式

、、、、

我有一个具有以下模式的dataframe：|-- _2: struct (nullable = true)我希望将dataframe

浏览 0提问于2018-02-15得票数 0

回答已采纳

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataF

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

如何实现自定义的Pyspark分解(用于结构数组)，1个分解中有4列？

、、、

我正在尝试在Pyspark中实现一个自定义的分解。我有4列，它们是具有几乎相同模式的结构数组(一列结构包含的字段比其他三列少一个)。对于我的DataFrame中的每一行，我有4列结构数组。列是学生、teaching_assistants、教师、管理员。学

浏览 22提问于2020-10-06得票数 3

回答已采纳

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

1回答

如何按列对pyspark中数据框进行分组，并获得以该列为键、以记录列表为其值的字典？

、、、

我有一个这样的数据框架-为此，我正在编写一个Gluejob。我可以通过循环遍历所有记录并获得所需的字典，以编程方式完成此操作，但这将花费大量时间。我想知道有没有办法通过使用一些高阶的pyspark函数来实现这个结果？

浏览 0提问于2021-04-09得票数 0

1回答

将array<string>转换为string pyspark dataframe

、、、、

我有一个pyspark dataframe，其中一些列包含字符串数组(其中一列包含嵌套数组)。因此，我无法将数据帧写入csv。下面是我正在处理的数据帧的一个示例- |ID | emailed| clickedNull +-----

浏览 2提问于2017-09-11得票数 5

回答已采纳

2回答

在Pyspark中将任意数量的列合并为Array类型的新列

、

我有一个pyspark dataframe，它包含N个包含整数的列。某些字段也可能为空。f为前缀的列组合成一个新列中的pyspark数组。features_filtered = features.select(F.concat(* features.columns[1:]).alias('combined')) 它返回null (我假设是由于初始dataframe</e

浏览 67提问于2020-06-18得票数 1

回答已采纳

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.sql.functionsemp.em

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

pyspark将数组转换为循环中的字符串

、、、

我有一个心理公园数据框架，它有字符串，整型和数组类型的列。我尝试对所有列运行for循环，以检查它们是否为任何数组类型的列，并将其转换为字符串。然后，pyspark数据框中的输出应该包含int、string列。下面的代码将只返回从数组转换为字符串的列。如何包含else语句以从dataframe

浏览 20提问于2021-04-11得票数 0

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。replace the above logic with a map fun

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

如何删除PySpark数据中的数组元素？

、、、、

我想从这个数组中删除条形码。我的数据看起来像下面给出的样本，您能帮助我使用PySpark从dataframe

浏览 1提问于2020-06-16得票数 1

回答已采纳

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

、、、、

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe

浏览 7提问于2021-03-15得票数 0

回答已采纳

5回答

DataFrame对象没有属性“col”

在“火花:最终指南”中，它说： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'DataFrame' object

浏览 2提问于2018-08-12得票数 9

点击加载更多