我在DataFrame中有3列:- time:TimeStamp,col1:Double,col2:Double我想执行以下操作: .groupBy(window(col("time"),"10 seconds","1 second"))
.agg(mean("col1") with window of 10 seconds,max("col") with
我尝试将pandas数据帧写入本地系统或集群模式下使用spark的hdfs,但它抛出了一个错误,如 IOError: [Errno 2] No such file or directory: {hdfs_path/file_name.txt} 这就是我的写作方式 df.to_csv("hdfs_path/file_name.txt", sep="|") 我使用的是python,作业是通过shell脚本运行的。任