我是pyspark的新手,我有一个来自api的json列表,每个json对象都有相同的模式(键值对)。如果它是单独的json文件。我会使用以下命令创建数据帧 df =spark.read.json('myfile.json'),然后将所有数据帧合并为一个。我正面临着直接从列表本身转换数据帧的问题。我用过这个 from pyspark.sql import SparkSession
spark= S
我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象?
我有一个dataframe,它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同,每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时,将字典(行)附加到列表中。data = []
global data
for item in row.json_object[