我有一个dataframe,它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同,每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时,将字典(行)附加到列表中。for item in row.json_object['obj']:
# create a dictionary to represent each r
我有一个用例来映射基于条件的pyspark列的元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用pyspark映射函数,但无法将pyspark列转换为dataFrame
注意:我之所以使用pyspark列,是因为我从我使用的库(远大期望)中获得了它的输入。replace the above logic with a map fun