pyspark中从JSON到Dataframe的数组

文章/答案/技术大牛

发布

1回答

、、

我在从Json文件中读取项目时遇到了一些问题，并且在将数据从Json文件中提取到列时也遇到了一些问题。, "gender":"bushes",} 我希望将这个JSON对象放在一个数据帧中，如下所示 +--------------

浏览 3提问于2021-09-16得票数 0

回答已采纳

2回答

有没有办法在pyspark中逐个访问数组(Struct)中的多个JSON对象

、、、、

我对pyspark和json解析还是个新手，我被困在了某些特定的场景中。让我先解释一下我要做什么，我有一个json文件，其中有一个数据元素，这个数据元素是一个包含另外两个json对象的数组。:意思是迭代到json的第一个对象，将其存储到一个dataframe中，然后迭代到第二个对象，并将其存储到另一个d

浏览 142提问于2019-06-05得票数 0

回答已采纳

2回答

使用来自另一个dataframe的JSON对象创建新的数据

、、、、

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。data = [] global data for item in row.json</em

浏览 4提问于2022-10-19得票数 1

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

2回答

从pyspark.sql.dataframe.DataFrame到数组

、、

假设我有下面的DataFrame。import pyspark.sql.functions as f| 9| 4| D|| 10| 2| B|如何创建具有基于value列的值的数组的新框架

浏览 0提问于2018-12-17得票数 0

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。Green", "max": 1000000, } ] 在Cosmos DB中，JSON</e

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

'HiveContext‘对象没有属性'jsonRDD’Spark2.1.1

、、、、

我正在PySpark上学习一个视频课程。我试图使用下面的代码将json字符串转换为dataframe。import pyspark as ps meals_dataframe.first() 当tring运行最后一行时，我会出现以下错

浏览 2提问于2017-10-02得票数 2

回答已采纳

1回答

如何将dataframe列转换为字典

、

首先，我要预先感谢大家的帮助！我有4张桌子，我加入了它们，得到了一个PySpark数据。').cast('string'))它显示类型为dataframe：无论如何，我再次尝试使用"loads“方法：但我也犯了同样的错误： TypeError: the J

浏览 4提问于2022-04-26得票数 0

1回答

json文件到pyspark dataFrame中

、、、、

我已经下载了一个json文件，我正在尝试将其放入DataFrame中，以便进行一些分析。raw_constructors = spark.read.json("/constructors.json")+--------------------+我得到了这个

浏览 7提问于2021-05-17得票数 0

回答已采纳

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

、、、

我的公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？而且，继续使用python可能更容易一些，因为我已经知道了python.So：你能把它们混合在一起，用python

浏览 4提问于2017-08-30得票数 0

2回答

嗨，我正在进行转换，我已经创建了some_function(iter)生成器到yield Row(id=index, api=row['api'], A=row['A'], B=row['B']，以生成从熊猫数据格式到(我必须使用熊猫来转换数据，因为有大量的遗留代码)respond_sdf.show() +-------------------------------------(url_json</

浏览 5提问于2020-12-22得票数 2

回答已采纳

1回答

Json文件到pyspark dataframe

、、、、

我正尝试在spark (pyspark)环境中使用JSON文件。问题:无法将JSON转换为中的预期格式在该文件中，元数据是在带有标记"meta“的文件的起始位置定义的，然后是带有标记" data”的数据。FYI:将数据从网络下载到本地驱动器的步骤。1.我已经下载了文件到我的本地驱动器2。然后推到hdfs -从那里我

浏览 2提问于2018-03-21得票数 2

回答已采纳

1回答

如何使用Pyspark创建空值的新列？

、

我有一个名为eventkey的列，它是以下元素的连接：account_type、counter_type和我有一个名为apply_event_key_transform的函数，在该函数中，我希望拆分连接的事件键def apply_event_key_transform(data_frame: DataFrame): output_df = data_frame.withColumn("account_type, getBiSidUDF(data_frame.event

浏览 5提问于2022-05-12得票数 0

1回答

使用带块的熊猫读取大json数据集

、、

我想读一个6gb大小的json (我还有一个1.5GB的json)，我试着和熊猫一起阅读(就用pd.read_json)，很明显记忆消失了。然后，我试着用块状的平面图，就像： df = [] df_reader =pd.read_json(f, lines=True, chun

浏览 1提问于2018-11-21得票数 2

1回答

将Dataframe激发到StringType

、、、

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pyspark连接细节以替换值时，

浏览 0提问于2021-03-05得票数 0

2回答

火花: Dataframe变换

、、、、

我有dataframe_1| Name| Age| Salary|| Jae Crowder|25.0|6796117.0|并希望将其转换为dataframe------------------------------------------------------------------------

浏览 5提问于2021-05-25得票数 0

回答已采纳

2回答

中跨多行json字符串的统一模式

、

对于包含一系列json字符串的PySpark DataFrame中的行，我有一个困难的问题。问题的核心是每一行可能包含与另一行不同的模式，所以当我想将上述行转换为PySpark中的可订阅数据类型时，我需要有一个“统一”模式。({'A': [1, 2, 3], 'B': [json_1, json_2, <e

浏览 1提问于2020-05-08得票数 5

回答已采纳

1回答

火花爆炸列与json数组对行

、、

如何定义json数组的架构，以便将其分解为行？[{"name":"name1","id":"1"}, {"name":"name2","id":"2"}]//

浏览 3提问于2020-04-06得票数 0

回答已采纳

1回答

如何使用Python / Pyspark合并数据库中的数据

、、、

我正在使用Databricks笔记本来提取gz压缩的csv文件并加载到dataframe对象中。我对下面的第2部分有困难。TypeError:无法连接类型为'<class‘>的对象.sql.dataframe.DataFrame’>；只有Series和DataFrame objs有效对于我如何合并数据文件有什么建议吗我将有多达20个

浏览 5提问于2021-02-10得票数 1

回答已采纳

2回答

如何加载一个20 in的json文件来读入pandas？

、、、

我有一个19.4 GB大小的JSON文件。我尝试了很多方法来读取文件。例如：pandas.read_json(filename)简单地使笔记本崩溃。我正在寻找以惰性方式加载文件的方法。例如，一次1 db，然后将其转储到SQLite或neo4j数据库中以分析数据。任何关于这方面的想法都会非常感谢。

浏览 17提问于2021-01-05得票数 0

点击加载更多