在Pandas中,有一个方法DataFrame.shift(n)将数组的内容相对于索引移动n行,类似于np.roll(a,n)。我似乎找不到办法让达斯克有类似的行为。我想要做的是:import pandas as pd
with pd.HDFStore(path) as(我知道该方法还会捕获从有符号值到零的更改),然后使用布尔序列索引不同的Dask数据帧进行绘图。
我正在尝试使用dask来计算存储在数据集中的数据摘要,该数据集分为大约1000个拼图文件。每个文件大小在1Mb - 10Mb之间。当我将一个序列转换成一个数组,并在该数组上计算max时,它工作得很好。然而,当我尝试对两个数组执行concatenate操作时,我很快就耗尽了内存: import dask.dataframe as dd
data = dd.read_parquet/data
执行f所需的时间非常少(大约5ms)。for x in M:与使用多处理并行化相比,需要花费大约5倍的时间。import multiprocessing
pool.map(f, M)
我曾经尝试过与dask并行化,但是它甚至在顺序执行中失败了我尝试过很多事情,如使用数据的分区(如所说的)或使用dask.bag。我在本地机器上</em