文章/答案/技术大牛

发布

社区首页 >问答首页 >多聚合用户定义的Dask数据模型函数

问多聚合用户定义的Dask数据模型函数
EN

Stack Overflow用户

提问于 2018-09-03 12:23:18

回答 1查看 4.4K关注 0票数 6

我正在使用Dask处理数据集(考虑到它不适合内存)，我希望根据列和它的类型，使用不同的聚合函数对实例进行分组。

对于数值数据类型，Dask有一组默认的聚合函数，但对于字符串/对象则没有。是否有一种方法可以为字符串实现用户定义的聚合函数，类似于下面的示例？

atts_to_group = {'A', 'B'}
agg_fn = {
  'C': 'mean'  #int
  'D': 'concatenate_fn1'  #string - No default fn for strings - Doesn't work
  'E': 'concatenate_fn2'  #string
}
ddf = ddf.groupby(atts_to_group).agg(agg_fn).compute().reset_index()

此时，我可以在删除不相关的列/行时读取内存中的整个数据集，但考虑到执行所需的操作更快，我更希望继续在Dask中进行处理。

编辑:尝试将自定义函数直接添加到字典中：

def custom_concat(df):
    ...
    return df_concatd

agg_fn = {
  'C': 'mean'  #int
  'D': custom_concat(df)
}

-------------------------------------------------------
ValueError: unknown aggregate Dask DataFrame Structure:

dask

python

dataframe

group-by

aggregation

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-03 16:35:41

已实现的达斯克提供了聚合数据结构。可以按以下方式进行自定义聚合：

# Concatenates the strings and separates them using ","
custom_concat = dd.Aggregation('custom_sum', lambda x: ",".join(str(x)), lambda x0: ",".join(str(x0)))
custom_concat_E = ...

atts_to_group = {'A', 'B'}
agg_fn = {
  'C': 'mean'  #int
  'D': custom_concat_D
  'E': custom_concat_E
}
ddf = ddf.groupby(atts_to_group).agg(agg_fn).compute().reset_index()

这也可以用Dataframe.apply来完成，这样的解决方案不那么冗长。

def agg_fn(x):
    return pd.Series(
        dict(
            C = x['C'].mean(), # int
            D = "{%s}" % ', '.join(x['D']), # string (concat strings)
            E = ...
        )
    )

ddf = ddf.groupby(atts_to_group).apply(agg_fn).compute().reset_index

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52149746

复制

相似问题

问多聚合用户定义的Dask数据模型函数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多聚合用户定义的Dask数据模型函数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多聚合用户定义的Dask数据模型函数
EN