我刚刚从Pandas转到了PySpark dataframe,发现在PySpark dataframe中打印出相同的列会给出错误的值。low_memory=False)Output:13441851182632而使用PySparkOutput:|CRIMEID||1321797|| null|| nu
我正在使用Azure Synapse pyspark来扁平化嵌套的json数据。json文件包含嵌套数据的json对象,如下所示,这里cords的类型为struct,用于第1和第3条记录,string用于第2条记录。当我使用df.printSchema()打印模式时,它将cords类型打印为字符串,如果我删除第二行json对象,那么它将打印结构类型的模式。这里我想根据cords数据类型过滤json对象,这样我就可以扁平化cords s