字符串中的pyspark嵌套列

文章/答案/技术大牛

发布

1回答

将列表列转换为嵌套结构列

、、、、

我正在尝试将一组丑陋的文本字符串转换为具有代表性的PySpark数据格式。最后一步是将包含字符串列表的列转换为包含嵌套行结构的列。对于列表中的每个字符串，我使用python字典理解将其规范化为相同的字段。当我试图通过列上的udf来转换它时，它会失败。我的列“记录”包含这样的

浏览 2提问于2018-10-20得票数 1

回答已采纳

1回答

将array<string>转换为string pyspark dataframe

、、、、

我有一个pyspark dataframe，其中一些列包含字符串数组(其中一列包含嵌套数组)。因此，我无法将数据帧写入csv。下面是我正在处理的数据帧的一个示例- |ID | emailed| clicked| Null +-------+-------

浏览 2提问于2017-09-11得票数 5

回答已采纳

2回答

我在PySpark中有一个PySpark，它的一个字段有一个嵌套数组值。我想过滤数组包含特定字符串的DataFrame。我不知道该怎么做。nullable = true) | |-- element: string (containsNull = false) 我希望返回upper(name) == 'JOHN'和lastName列(数组)包含'SMITH'和等式的所有行(就像我对名称所做的</e

浏览 4提问于2016-06-24得票数 0

回答已采纳

0回答

、、

我正在和PySpark一起工作。，其中包含由每个元素分隔的‘DataFrame’字符串。我能得到的最接近的方法是定义模式，如下所示，并使用from_json创建一个新的df应用模式 StructField("user_id", StringType)+-------++-------+| null|也许我不

浏览 1提问于2018-07-12得票数 1

1回答

将嵌套字典键值转换为pyspark数据

、、、

我有一个Pyspark数据文件，看起来像这样：我希望提取"dic“列中的嵌套字典，并将它们转换为PySpark数据格式。如下所示：请告诉我如何做到这一点。谢谢!

浏览 2提问于2020-07-20得票数 2

1回答

解析存储为string的pyspark行

、

我有一个数据集，该数据集包含一些嵌套的吡火花行，这些行存储为字符串。当我将它们读入pyspark中时，这些列被读取为如下所示的字符串： 'Row(name='Bob', updated='Sat Nov 21 12:57:54', isProgrammer=True)'我的目标是将其中一些子字段解析为单独的列，但我在读取它们时遇到了困难。。

浏览 3提问于2022-06-03得票数 0

2回答

在PySpark中使用列对象而不是字符串有什么优点

、、、、

在PySpark中，可以使用列对象和字符串来选择列。这两种方法返回相同的结果。有什么不同吗？什么时候应该使用列对象而不是字符串？例如，我可以使用column对象：# or# or

浏览 0提问于2020-11-09得票数 0

1回答

json转换:无法解析JSON格式的模式:未能将JSON字符串(大JSON字符串)转换为数据类型

、、、、

使用复杂的嵌套结构列时，我很难在pyspark内部进行json转换。from_json的架构似乎没有行为。示例： df = spark.createDataFrame([[1,'a'],[2,'b'],[3,'c']], ['rownumstruct')).withColumn('struct',f.from_json(

浏览 2提问于2022-02-18得票数 0

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。我有一个名为ProductRanges的列，其中一行包含以下值： [ { "min": 0, "max": 99,JSON文档是有效的，当

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

在Pyspark* 2.4中使用StructType验证列的模式*

、、

我有一个dataframe，它的一个列是一个JSON字符串 from pyspark.sql import SparkSessionimportfoo, bar], true]]|+---+--------------------------+ 可以看出，第二行不符合schema中的模式对于我的管道来说，如果有数据不符合

浏览 21提问于2019-09-19得票数 0

2回答

Pyspark :更改嵌套列数据类型

、

如何在Pyspark中更改嵌套列的数据类型？例如，如何将value的数据类型从string更改为int？

浏览 19提问于2017-08-23得票数 1

回答已采纳

2回答

在pyspark* DataFrame中创建某个类型的空数组列*

、、、

我尝试向df添加一个包含字符串数组的空数组的列，但最终添加了一个字符串数组的列。我试过这个： import pyspark.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在pyspark中做到这一点？

浏览 91提问于2019-08-28得票数 9

回答已采纳

6回答

用PySpark删除数据表的嵌套列

、、、、

我正在尝试使用PySpark从中的结构中删除一些嵌套列。我为Scala找到了这个，它似乎正是我想做的，但我不熟悉Scala，也不知道如何用Python编写它。

浏览 8提问于2017-07-12得票数 10

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame # like c

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

将事务分组到嵌套模式中

、、

我希望将存储在pyspark.sql.dataframe.DataFrame "ddf“中的事务按列"key”分组，该列指示事务的来源(在本例中为customer )。分组是一个非常昂贵的过程，因此我想在嵌套模式中将组写入磁盘： (key, [[c1, c2, c3,...], ...])这将允许我快速加载密钥上的所有事务，并在不重新运行分组的情况下开发复杂的自

浏览 6提问于2016-05-14得票数 0

回答已采纳

1回答

(Py) SQL语法中的星火getItem()

、、

数组类型列的第n项可以使用getitem(n)检索.地图类型的列可以使用getItem(key)或'column.key'分开。数组有类似的语法吗？上下文:目标是以可读的方式从大规模嵌套的json中获取特定字段。from pyspark import SparkContext sc = SparkContext.getOr

浏览 4提问于2020-10-09得票数 0

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

、、、、

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用： from pyspark.sql.functions impor

浏览 13提问于2022-10-19得票数 1

回答已采纳

1回答

删除pyspark中的嵌套列

、、、、

我有一个包含一列结果的pyspark数据帧。在结果列中，我想删除列"Attributes“。dataframe的模式是：(在结果中有更多的列，但为了方便起见，我没有显示它们，因为模式很大) |-- results: struct (nullable = true) | | | | | | | | |-

浏览 20提问于2020-06-15得票数 0

回答已采纳

1回答

将3级嵌套字典键值转换为pyspark* dataframe*

、、、

我有一个Pyspark数据框架，看起来像这样： ? 我想提取"dic“列中的那些嵌套字典，并将它们转换为PySpark数据帧。如下所示： ? 另外，每一行中的键也会有一些变化，例如，一些行可能有其他行没有的字段。我希望包括所有字段，如果一条记录没有某些字段/keys，则该值可以显示为"null“。请告诉我如何才能做到这一点。谢谢!

浏览 22提问于2020-07-22得票数 0

1回答

从Pyspark* Dataframe解析JSON字符串*

、、、、

我有一个嵌套的JSON字典，我需要将其转换为spark dataframe。此JSON字典显示在数据框列中。我一直在尝试使用"from_json“和"get_json_object”来解析dataframe列中存在的字典，但一直无法读取数据。以下是我一直在尝试读取的源数据的最小片段： {"value": "\u0000\u0000\u0000\u0000/{\"co

浏览 36提问于2021-04-01得票数 1

回答已采纳

点击加载更多

将列表列转换为嵌套结构列

将array<string>转换为string pyspark dataframe

PySpark DataFrames:筛选数组列中的值