使用PySpark修改结构列中的嵌套属性

文章/答案/技术大牛

发布

1回答

、、

我想要修改/过滤结构中的属性。3]} |

浏览 27提问于2021-11-15得票数 1

6回答

用PySpark删除数据表的嵌套列

、、、、

我正在尝试使用PySpark从中的结构中删除一些嵌套列。我为Scala找到了这个，它似乎正是我想做的，但我不熟悉Scala，也不知道如何用Python编写它。

浏览 8提问于2017-07-12得票数 10

回答已采纳

1回答

将列表列转换为嵌套结构列

、、、、

我正在尝试将一组丑陋的文本字符串转换为具有代表性的PySpark数据格式。最后一步是将包含字符串列表的列转换为包含嵌套行结构的列。对于列表中的每个字符串，我使用python字典理解将其规范化为相同的字段。当我试图通过列上的udf来转换它时，它会失败。我的列“记录”包含这样的字符串列表.这在单

浏览 2提问于2018-10-20得票数 1

回答已采纳

1回答

将字符串列转换为pyspark dataframe中的字典

、、、

文件格式，因为它没有包含在数组中。而且，实际的结构要大得多，嵌套也要多。这些文件是在s3中分发的。我以前只使用过地板或csv，所以我不知道如何读取这些文件。我目前正在编写一个进程来将该数据与其他几个表连接起来，而且由于数据很大，并且位于s3中，所以我在emr集群中使用pyspark.sql进行操作。我可以使用以下方法创建一个包含对象为字符串的单一列的</e

浏览 3提问于2020-03-02得票数 1

回答已采纳

1回答

将array<string>转换为string pyspark* dataframe*

、、、、

我有一个pyspark dataframe，其中一些列包含字符串数组(其中一列包含嵌套数组)。因此，我无法将数据帧写入csv。下面是我正在处理的数据帧的一个示例- |ID | emailed| clickedNull +-------+---------------

浏览 2提问于2017-09-11得票数 5

回答已采纳

2回答

将列添加到嵌套在数组中的结构中

、、

我有一个带有结构数组的PySpark DataFrame，包含两个列(colorcode和name)。我想在结构newcol中添加一个新列。回答了“如何将列添加到嵌套的结构”，但我未能将其传输到我的示例中，在这种情况下，结构被进一步嵌套在数组中。我似乎无法引用/重新创建数组-结构模式

浏览 11提问于2022-03-31得票数 1

回答已采纳

1回答

Pyspark:获取嵌套结构列的数据类型

、、、

我目前正在处理一些相当复杂的json文件，我应该将它们转换并写入增量表。问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-colu

浏览 42提问于2021-10-22得票数 0

2回答

迅速嵌套的可选值类型(结构)和属性的修改

、、、

我在我的模型中使用了几种值类型，并且这个值类型(structs)作为属性嵌套了其他值类型(structs)。然后，我想在另一个结构中修改(添加、删除、更新)这个嵌套的结构中的根对象。此外，该属性通常具有可选类型，可以为零。因此，当赋值给var时，let被复制时，我不能使用这个内部结构实例的可选绑定并在以后<em

浏览 2提问于2018-05-16得票数 1

回答已采纳

2回答

对嵌套在数组中的结构元素进行排序

、、、

我在Array中有一个嵌套结构的架构。我想按字母顺序排列嵌套结构的列。我正在使用PySpark 3.2.1。我的模式： |-- id: integer (nullable = true) |-- values: ar

浏览 3提问于2022-03-31得票数 1

回答已采纳

2回答

如何使用pyspark更新结构的嵌套列中的值

、、、

我试图进行非常简单的更新嵌套列的值；但是，我不知道如何实现。

浏览 7提问于2020-12-07得票数 4

回答已采纳

1回答

将嵌套的JSON列转换为Pyspark列

、、、

我已经使用S3数据格式在pyspark.pandas中读取和存储了拼花文件。现在，在第二阶段，我试图在databricks中读取pyspark dataframe中的parquet文件，并面临将嵌套的json列转换为适当列的问题。首先，我使用以下命令从S3读取拼图数据： adf = spark.read.parquet('s3://p

浏览 8提问于2022-06-07得票数 0

2回答

-----------------------------------------------------------------------------------+ 现在，对于每个id，可以有多个结构我尝试为其中几个定义了Struct模式，如下所示- from pyspark.sql.types import StructType,StructField, StringType from pyspark.sql.functions.select("stringDictionary","jsonData.*&

浏览 23提问于2021-10-02得票数 3

回答已采纳

2回答

如何修改spark dataframe行中的列值？

、、

我正在使用具有以下结构的数据框架在这里，我需要修改每条记录，以便如果post_event_list中列出了一列，我需要用相应的post_column值填充该列。因此，在上面的示例中，对于这两条记录，我需要用post_col4和post_col5值填充col4和col5。有没有人可以帮我在pyspark中做这件事。

浏览 3提问于2016-09-09得票数 5

2回答

用json模式更新spark数据帧中的列

、、、、

我有json文件，我试图使用SHA 256散列其中的一个字段。这些文件位于AWS S3上。目前，我正在Apache上使用与python一起使用的星星之火。这是我的json模式，我正在尝试散列'mac‘字段； | |-- data: array (nullable =但是当我尝试散列mac字段并更改名称变量时，什么都不会发生； name =

浏览 2提问于2016-11-14得票数 0

回答已采纳

1回答

按字段将两个结构相加

、、、

我有一个DataFrame模式，如下(在PySpark中)： |-- ID: string (nullable = true) | |-- val_2: double (nullable = true)我希望将2021和2022列添加到一个列AGG中，以便它将包含DataFrame中每一行的</e

浏览 5提问于2022-02-24得票数 0

回答已采纳

1回答

PowerBuilder -嵌套报表中的对象

、

我只想问一下，在PowerBuilder中，如何修改嵌套报表中对象的属性。主DataWindow不是复合DataWindow，它只是一个表格。我在修改嵌套报表中2列的Visible属性时遇到了困难。

浏览 2提问于2011-04-27得票数 1

2回答

在pyspark* 2.3中，如何处理json模式推断后由于大小写不敏感而导致的列名不明确？*

、、

在Pyspark 2.3中，假设我有一个如下所示的JSON文档： "key1": { "KEY2": "def"}pyspark.sql.uti

浏览 2提问于2018-09-21得票数 0

回答已采纳

2回答

对嵌套结构/集合的属性进行筛选和排序的RavenDb索引(扇出索引)

、、、、

我正在寻找一种创建的方法，以便为嵌套结构(对象的集合)和结构容器中的属性值组合提供过滤/排序查询。由于以下原因，这似乎不算微不足道：如果嵌套结构/集合的属性被分离出索引的单个字段(单个集合)，那么在对嵌套结构/集合的2+属性进行筛选时，就不可能使用<

浏览 3提问于2018-06-06得票数 2

回答已采纳

1回答

将嵌套字典键值转换为pyspark数据

、、、

我有一个Pyspark数据文件，看起来像这样：我希望提取"dic“列中的嵌套字典，并将它们转换为PySpark数据格式。如下所示：请告诉我如何做到这一点。谢谢!

浏览 2提问于2020-07-20得票数 2

1回答

从类中删除子属性

有没有一种方法可以从嵌套在class对象中的类中删除sub属性？我需要实现的是修改coplex嵌套类结构，以便在序列化之前从整个对象中删除不需要的属性，这是可能的吗？我尝试了一个ExpandoObject，但是在转换成字典后，我似乎只能删除“顶级”属性。下面是我想要在序列化之前删除名为'OneOneOneOne‘的<e

浏览 11提问于2018-03-05得票数 0

点击加载更多