我在使用dask系列对象做任何有用的事情时遇到了麻烦。在我设法创建了一个之后,我不能在比序列对象本身更低的级别上使用它。import numpy as npimport dask.dataframe as ddf
for i in range(5):我想我希望它返回某种类型的dask对象,在计算时,该对象返回文件中的数据。
我正在尝试获取一个dask数据帧,按列'A‘分组,并删除行数少于MIN_SAMPLE_COUNT的组。\dataframe\groupby.py in __getitem__(self, key)-> 11541155 return g
~\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\base.py in __getitem中<em
正如详细记录的那样,在调用reset_index时,Dask在每个分区基础上创建一个严格增加的索引,从而导致整个集合上的索引重复。编辑
谢谢@MRocklin,我已经做到了这一点,但是我需要一些关于如何将我的系列与原始的dataframe重新组合的帮助。Consider using dask.repartition.")