在PySpark中,每当我在一个非常大的数据帧df
上排列一组复杂的操作,然后键入:
df.show(20)
Spark将只执行必要的操作(在部分数据集上),以便快速返回20条记录以供显示。除非我用.collect()
强制它这样做,否则它不会对dataframe df
的所有行执行操作。
另一方面,在Dask中,当我做同样的事情时:
df.head(20)
Dask实际上将对整个数据帧执行操作(并且会持续很长一段时间),然后返回前20条记录。
Dask方法使得在非常大的数据集上快速迭代想法变得笨拙。有没有一种方法可以通过智能地返回足够的记录子集来提高Dask的响应性?
https://stackoverflow.com/questions/50658923
复制相似问题