我有一个需要使用PysparkDataframe拆分的日志文件.Below是我的示例日志文件 20/06/25 12:19:33 INFO datasources.FileScanRDD: ReadingINFO executor.EXECUTOR: Finished task 18.0 in stage 0.0 (TID 18),18994 bytes result sent to driver 从日志示例中
我有一个CSV文件,它包含JSON对象以及其他数据,比如String,Integer。如果我尝试将文件读取为CSV,那么JSON对象将在其他列中重叠。from pyspark.sql.types import *# Initializing SparkSession and setting up the(如中讨论的)来处理此问题。{\'abc\':0,\'mno\':\'h\'}",
我有许多结构混乱的JSON文件。我想把这些解析成一个PySparkDataFrame。我编写了一个解析函数,并希望将其应用于目录中的每个文件,并将其输入到我的DataFrame中。我对PySpark完全陌生,所以任何帮助都是非常感谢的。.] # Is there a PySpark way to iterate through files in a directory?谢谢你的帮助--就像我说过的,我是个十足的<e