? 大家好。你能帮我处理一下.corrWith吗?我找不到一个解决方案来“翻译”熊猫到火花 编辑:我使用两个数据帧,所以我需要在两个数据帧之间建立一个关联 代码: pd.DataFrame({col:x.corrwith(y[col]) for col in y.columns}) 下面的图像显示了完美的输出,但需要在spark上写入
我在Databricks的Pyspark环境中工作,有一个pyspark数据框架,我将其称为df。 我需要将这个spark数据帧推送到csv文件中,我无法这样做。虽然没有弹出错误,但数据帧没有复制到csv中。下面是通用代码 path = “ “ #CSV File Location
header = “This is the header of the file"
With open(path,”a”) as f:
f.write(header+”\n”)
df.write.csv(path=path,format=“csv”,mode=“append”)
我有一个数据框dfA。其中包含超过一百万条记录。我想根据'GROUP_ID‘将数据帧拆分成多个数据帧,然后对这些数据帧执行一些操作。此循环将基于唯一的组id创建数据帧。问题是,这段代码需要3天的时间才能运行,所以我想知道如何使用多进程并行来实现这一点。请指教
for group in dfA['GROUP_ID']:
dftest = dfA.loc[dfA['GROUP_ID'] == group]
在我们的一个Pyspark作业中,我们有一个场景,我们在一个大的数据帧和相对较小的数据帧之间进行连接,我相信spark正在使用广播连接,我们遇到了以下错误 org.apache.spark.SparkException: Cannot broadcast the table that is larger than 8GB: 8 GB
at org.apache.spark.sql.execution.exchange.BroadcastExchangeExec$$anonfun$relationFuture$1$$anonfun$apply$1.apply(BroadcastExch