首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >对于.head(20)这样的操作,如何让Dask变得像PySpark一样懒惰?

对于.head(20)这样的操作,如何让Dask变得像PySpark一样懒惰?
EN

Stack Overflow用户
提问于 2018-06-03 00:27:07
回答 1查看 171关注 0票数 1

PySpark中,每当我在一个非常大的数据帧df上排列一组复杂的操作,然后键入:

代码语言:javascript
复制
df.show(20)

Spark将只执行必要的操作(在部分数据集上),以便快速返回20条记录以供显示。除非我用.collect()强制它这样做,否则它不会对dataframe df的所有行执行操作。

另一方面,在Dask中,当我做同样的事情时:

代码语言:javascript
复制
df.head(20)

Dask实际上将对整个数据帧执行操作(并且会持续很长一段时间),然后返回前20条记录。

Dask方法使得在非常大的数据集上快速迭代想法变得笨拙。有没有一种方法可以通过智能地返回足够的记录子集来提高Dask的响应性?

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50658923

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档