有没有办法可以在pyspark中逐个访问数组(struct)中的多个JSON对象

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (89)

我对pyspark和json解析有点新,我在某些情况下陷入困境。让我先解释一下我要做的事情,我有一个json文件,其中有数据元素,该数据元素是一个包含两个其他json对象的数组。给定的json文件如下

 {
    "id": "da20d14c.92ba6",
    "type": "Data Transformation Node",
    "name": "",
    "topic": "",
    "x": 380,
    "y": 240,
    "typeofoperation":"join",
    "wires": [
        ["da20d14c.92ba6","da20d14c.93ba6"]
    ],
 "output":true, 
 "data":[
      {
         "metadata_id":"3434",
         "id":"1",
         "first_name":"Brose",
         "last_name":"Eayres",
         "email":"beayres0@archive.org",
         "gender":"Male",
         "postal_code":null
      },
      {
         "metadata_id":"3434",
         "id":"2",
         "first_name":"Brose",
         "last_name":"Eayres",
         "email":"beayres0@archive.org",
         "gender":"Male",
         "postal_code":null
      }
   ]

 }

现在我要做的是逐个迭代该数据数组:意味着迭代到json的第一个对象将其存储到数据帧中,然后迭代到第二个对象并将其存储到另一个数据帧中,而不是完全连接或任何他们的联系类型。(可能)

如果是,请在pyspark中执行此操作。到目前为止,我所做的就是 试图将其爆炸,但数据会立即爆炸而不是一次爆炸

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode, col
from pyspark.sql.functions import *
from pyspark.sql import Row
from pyspark.sql import SQLContext
from pyspark import SparkConf, SparkContext

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .getOrCreate()

sc = SparkContext.getOrCreate()

dataFrame = spark.read.option("multiline", "true").json("nodeWithTwoRddJoin.json")

dataNode = dataFrame.select(explode("data").alias("Data_of_node"))

dataNode.show()

但上面的代码给了我一个集体数据集。比我用过

firstDataSet = dataNode.collect()[0]
secondDataSet =  dataNode.collect()[1] 

这些行给了我一行,我不能回到数据帧。任何建议和解决方案

提问于
用户回答回答于

您需要在数据框的每一行上应用一个映射,该映射将其中一列的内容拆分为两个新列。之后将其结果分成两个数据帧是微不足道的。为此,我使用了一个简单的函数,它从数组中返回所需的索引:

def splitArray(array, pos):
    return array[pos]

你可以像这样应用这个函数:

import pyspark.sql.functions as f

mapped = dataFrame.select(
    splitArray(f.col('data'), 0).alias('first'),
    splitArray(f.col('data'), 1).alias('second'))

(我使用'col'函数中的构建来选择数据列。不确定是否有更优雅的方法来实现这一点。)

结果:

+-----------------------------------------------------+-----------------------------------------------------+
|first                                                |second                                               
|
+-----------------------------------------------------+-----------------------------------------------------+
|[beayres0@archive.org, Brose, Male, 1, Eayres, 3434,]|[beayres0@archive.org, Brose, Male, 2, Eayres, 3434,]|
+-----------------------------------------------------+-----------------------------------------------------+

对于不同dfs中的列,只需选择它们:

firstDataSet = mapped.select('first')
secondDataSet =  mapped.select('second)
用户回答回答于

这使它们至少在两个数据帧中

from pyspark.sql.functions import monotonically_increasing_id

df_with_id = dataNode.withColumn("id",monotonically_increasing_id())

max_id = df_with_id.agg({"id": "max"}).collect()[0]["max(id)"]


first_df = df_with_id.where("id = {maxid}".format(maxid=max_id))
second_df = df_with_id.where("id != {maxid}".format(maxid=max_id))

扫码关注云+社区

领取腾讯云代金券