使用pyspark将dataframe列转换为嵌套JSON结构

文章/答案/技术大牛

发布

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

1回答

、、、

我对pyspark是个新手ConceptGriddf = spark.sql("""1 Reserved_89 x Unshared 0.4939 "Zone": "x", "

浏览 21提问于2021-06-10得票数 0

回答已采纳

1回答

将嵌套的JSON列转换为Pyspark列

、、、

我已经使用S3数据格式在pyspark.pandas中读取和存储了拼花文件。现在，在第二阶段，我试图在databricks中读取pyspark dataframe中的parquet文件，并面临将嵌套的json列转换为适当列的问题。首先，我使用以下命令从S3读取拼图数据：我的p

浏览 8提问于2022-06-07得票数 0

2回答

使用来自另一个dataframe的JSON对象创建新的数据

、、、、

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。data = [] global data for item in row.json_object['obj

浏览 4提问于2022-10-19得票数 1

回答已采纳

3回答

我正在尝试从嵌套的JSON结构中创建一个dataframe，但是我遇到了一个我不明白的问题。我已经在JSON中爆炸了一个dicts数组结构，现在我正在尝试访问这些数据集，并创建包含其中的值的列。这就是这些白痴们的样子：索引1(主语、位置等)处的值根据架构在键"name“下转：然而，当我尝试： dataframe = dataframe.withColumn("keywords_

浏览 7提问于2022-08-04得票数 1

回答已采纳

2回答

Pyspark :将嵌套的JSON结构转换为pyspark dataframe

、、、、

是否有一种简单的方法可以将下面的示例json转换为Pyspark dataframe？

浏览 2提问于2022-02-07得票数 0

1回答

从Pyspark* Dataframe解析JSON字符串*

、、、、

我有一个嵌套的JSON字典，我需要将其转换为spark dataframe。此JSON字典显示在数据框列中。我一直在尝试使用"from_json“和"get_json_object”来解析dataframe列中存在的字典，但一直无法读取数据。我使用下面的代码清理数据并将其读取到数据帧中 from pyspark.sql.functions im

浏览 36提问于2021-04-01得票数 1

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。', {'c': 1, 'd':3}],内部列表中的第三个元素没有特定的结构在pandas数据帧中，我可以<em

浏览 1提问于2018-04-07得票数 1

3回答

星星之火将嵌套的JSON转换为单独的列

、、

我有一个具有以下结构的JSON流，该流被转换为dataframe "a": 3936, "c": "34", "d": "146", "f": "23"} datafram

浏览 6提问于2016-07-10得票数 0

回答已采纳

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。我有一个名为ProductRanges的列，其中一行包含以下值： [ { "min": 0, "min": 500,

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

Pyspark:获取嵌套结构列的数据类型

、、、

我目前正在处理一些相当复杂的json文件，我应该将它们转换并写入增量表。问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-columns/ 如果我有这样的格式编辑: Json

浏览 42提问于2021-10-22得票数 0

1回答

使用整行udf过滤Pyspark Dataframe

、、

有没有办法选择整行作为一列输入到Pyspark过滤器udf中？我有一个复杂的过滤函数"my_filter“，希望应用于整个DataFrame：new_df我知道我可以将dataframe转换为RDD，然后使用RDD的filter方法，但我不希望将其转换为RDD，然后再转换回dataframe。我的D

浏览 2提问于2018-08-28得票数 4

回答已采纳

1回答

PySpark递归密钥搜索

、、

我有一个深度嵌套的json esque结构，我需要在所有级别(最多7)搜索给定的键，以查找所有事件。在0级中始终存在数据，我需要将这些数据与在任何级别上发现的search_key的每次发生关联起来。我尝试通过递归调用将这些数据推送并在返回时追加，但是当我将数据从标准的Python转移到PySpark RDD时，我遇到了堆和不可访问的类型问题。然后，我希望将结果RDD中的每一行转换为PySpark行，以便与PySpark</em

浏览 1提问于2018-06-14得票数 1

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.sque

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

使用Pandas解析大型CSV中的JSON列w/嵌套值

、、、、

我有一个巨大的CSV文件(3.5GB，每天都在变大)，它有正常的值，还有一列名为“元数据”的嵌套JSON值。我的脚本如下所示，其目的只是将JSON列转换为其每个键值对的普通列。我正在使用Python3 (Anaconda；Windows)。import pandas as pdimport csv from pandas.io.json</e

浏览 0提问于2018-06-22得票数 3

回答已采纳

1回答

极性:极性中有类似json_normalize的特性吗？

、

我查看了整个Polar文档，但是找不到任何可以将嵌套的json转换为dataframe的东西。= { "Subjects": { "English": 94, }熊猫中的json_normalize会将这些列命名为name、Sub

浏览 6提问于2021-11-21得票数 5

1回答

无法在数据帧中将字符串转换为整数

、

df_new["product_count"]=df_new.product_count.apply(lambda x: int(x))df_new["no_of_ratings"]=df_new.no_of_ratings.apply(lambda x: int(x) )TypeError Traceb

浏览 9提问于2022-04-30得票数 0

3回答

高效地从PySpark中的复杂JSON文件中清除HTML实体

、、、、

我正在使用PySpark分析Palantir Foundry中的一些JSON数据。源是一个30 60上传的JSON文件，包含四个元素，其中一个包含大约60列和20,000行的表。建议，在将整个JSON文件转换为dataframe之前，最好一次处理整个JSON文件。但是，我的当前代码使用spark_session.read.json()自动地从原始文件转到具有正确模式的dat

浏览 20提问于2022-10-24得票数 2

回答已采纳

2回答

将熊猫数据转换为特定的json类型

、、

OFFICE BO MAKER Mobile NSTP COMPLETED 32 MET MET 现在，我希望这些数据采用以下json

浏览 9提问于2022-03-05得票数 0

1回答

如何将数据帧中的列转换为字符串？

、、、、

我使用了转换为json的api，使用pandas进行了标准化，并使用pyspark转换为dataframe。但是我不能改变列，无论是表单还是任何东西，我不能选择它们。我想知道我哪里错了！import requestsimport pandas as pd import os from pys

浏览 6提问于2020-12-11得票数 0

回答已采纳

点击加载更多

pyspark中的to_json包含空值，但我需要空值作为空