问对于.head(20)这样的操作，如何让Dask变得像PySpark一样懒惰？
EN

Stack Overflow用户

提问于 2018-06-03 00:27:07

回答 1查看 171关注 0票数 1

在PySpark中，每当我在一个非常大的数据帧df上排列一组复杂的操作，然后键入：

df.show(20)

Spark将只执行必要的操作(在部分数据集上)，以便快速返回20条记录以供显示。除非我用.collect()强制它这样做，否则它不会对dataframe df的所有行执行操作。

另一方面，在Dask中，当我做同样的事情时：

df.head(20)

Dask实际上将对整个数据帧执行操作(并且会持续很长一段时间)，然后返回前20条记录。

Dask方法使得在非常大的数据集上快速迭代想法变得笨拙。有没有一种方法可以通过智能地返回足够的记录子集来提高Dask的响应性？

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50658923

复制

相似问题

问对于.head(20)这样的操作，如何让Dask变得像PySpark一样懒惰？EN