如何将json对象列表转换为单个pyspark dataframe？_将json对象转换为pyspark dataframe_将对象数组(JSON)转换为单个对象(dataframe) - 腾讯云开发者社区

python、json、machine-learning、pyspark

我是pyspark的新手，我有一个来自api的json列表，每个json对象都有相同的模式(键值对)。如果它是单独的json文件。我会使用以下命令创建数据帧 df =spark.read.json('myfile.json')，然后将所有数据帧合并为一个。我正面临着直接从列表本身转换数据帧的问题。我用过这个 from pyspark.sql import SparkSession spark= S

浏览 18提问于2019-05-28得票数 1

回答已采纳

2回答

如何将数据帧转换为json格式

json、dataframe、pyspark

我想知道如何将pyspark dataframe转换为json格式。name ㅣ type 'kane' ㅣ 'message'->2, 'text'->3 数据帧到json格式 data{name : 'james', 'messa

浏览 12提问于2020-08-14得票数 0

4回答

PySpark计算相关性

python、apache-spark、pyspark、apache-spark-sql、apache-spark-mllib

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

1回答

将Dataframe激发到StringType

json、apache-spark、pyspark、apache-kafka

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pyspark连接细节以替换值时，我将面临问题。错

浏览 0提问于2021-03-05得票数 0

2回答

如何在ArrayType中将字符串转换为字典(JSON)

python、pyspark、pyspark-sql

尝试将StringType转换为JSON的ArrayType，以获取从CSV生成的数据。)列表。temp = dataframe.withColumn( dataframe["attribute3"].cast(ArrayType()我和"json"试过了，但没有起作用。期望的输出--最后，我需要将attribute3转换为Arr

浏览 0提问于2018-08-06得票数 5

回答已采纳

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

apache-spark、pyspark、apache-spark-mllib、pca、apache-spark-ml

= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：中执行PCA>>> from

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

Apache Spark JSON* : DataFrame类型的对象不可序列化*

python、api、apache-spark、pyspark、databricks

我将JSON数据从Apache Spark / Databricks发送到API。API期望数据采用以下JSON格式： Sample: "CtcID": 1, "CpyID": 3, "IS_NULLABLE": "sample string 3", "FieldCont

浏览 24提问于2021-04-21得票数 0

回答已采纳

2回答

以每列为关键字将PySpark数据帧转换为JSON

apache-spark、pyspark、apache-spark-sql、databricks

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

Python:扩展类方法并使用类的替换实例

python、pyspark、overriding、super、pyspark-dataframes

我想扩展pyspark.sql.DataFrame的读写功能，以满足我自己的项目需要。为此，我创建了以下代码 # do something问题是，

浏览 1提问于2020-06-17得票数 0

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

hadoop、machine-learning、pyspark、cloudera

我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？你能把它们混合在一起，用python编写一部分代码，用pyspark编写一部分代码吗？

浏览 4提问于2017-08-30得票数 0

1回答

Spark :使用DataFrame* ()将registerTempTable注册为表*

python、sql、apache-spark、pyspark

我使用registerTempTable()方法将DataFrame df注册为dataset中的一个表。import findsparkimport pysparksqlCtx = SQLContext(sc) df = sqlCtx.read.json

浏览 0提问于2019-11-12得票数 1

2回答

将不同Dataframes的列表保存到json

python、json

我想用json (或任何其他格式)保存这个列表，这些列表可以被R. """df2 = cr

浏览 3提问于2017-05-28得票数 4

回答已采纳

5回答

如何解析来自Python SDK的嵌套FB API响应

python、json、facebook、facebook-graph-api

impressions": "60000",}, <Insights> {在将不包括actionsdata的数据放入pandas DataFrame在在线和Stackoverflow上进行检查后，使用python加载json并对其进行相应的处理，以及使用pandas读取它都是不起作用的选项。

浏览 3提问于2015-12-04得票数 8

2回答

火花: Dataframe变换

python、json、pandas、apache-spark、pyspark

我有dataframe_1| Name| Age| Salary|| Jae Crowder|25.0|6796117.0|并希望将其转换为------------------------------+ | json_data_1.toPandas().to_dic

浏览 5提问于2021-05-25得票数 0

回答已采纳

1回答

将json对象转换为pyspark dataframe

python、arrays、json、dataframe、pyspark

我正在处理旧格式的json文件。下面是JSON的格式。如何将此json转换为Pyspark dataframe。

浏览 10提问于2021-09-26得票数 0

2回答

BSONObject到DataFrame的RDD

json、mongodb、apache-spark、bson

按照的描述，我正在从Mongo加载一个bson转储到Spark中。它是有效的，但我得到的是：它基本上应该是包含所有String字段的JSON。我的其余代码需要一个DataFrame对象来操作数据。但是，当然，toDF在该RDD上失败了。如何将其转换为所有字段均为String的Spark DataFrame？如果能有类似于spark.read.json

浏览 1提问于2016-10-04得票数 1

1回答

从API到CSV的数据帧

python、pandas、api、csv

/article"headers = {'Content-Type': "application/json",这很好用

浏览 1提问于2020-09-03得票数 5

2回答

如何在PySpark中将df列[JSON_Format]转换为多个列？

python、apache-spark、pyspark、apache-kafka、spark-structured-streaming

我从Kafka那里得到了JSON格式的数据，并在PySpark中以DataFrame的形式读取了这些数据。在我从Kafka获得数据后，它显示为DataFrame格式： DataFrame[value: string] 但是，该值包含JSON / DICT格式。testing.writeStream.foreach(print_row).start() Row(value='{col_1 =80.0, timestamp=2020-01-13T08:58:58.164Z

浏览 24提问于2020-01-13得票数 0

3回答

将SCALA === (三等号)转换为用于火花列的Python

python、scala、apache-spark、pyspark

{Column, DataFrame, Dataset} searchTermsInputTable: DataFrame使用Dataset，它不受Pyspark===支持，用于列，该列也不支持我如何克服这一问题并将其转换为Python？

浏览 3提问于2022-03-18得票数 0

2回答

使用来自另一个dataframe的JSON对象创建新的数据

python、json、pandas、dataframe、pyspark

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。data = [] global data for item in row.json_object[

浏览 4提问于2022-10-19得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云