我目前正在使用Python Record Linkage Toolkit对工作中的数据集执行重复数据消除。has ideas for doing record linkage with two large data sets using numpy split,它对我的使用来说很简单,但不提供任何在单个数据帧内进行重复数据删除的功能我实际上将这个子集建议合并到了一个方法中,用于将多索引拆分成多个子集
我正在成功地使用groupby()函数来计算分组数据的统计信息,但是,现在我想对每个组的子集进行同样的计算。我似乎无法理解如何为每个组(作为groupby对象)生成子集,然后将其应用于group be函数(如mean() )。以下一行按预期工作:我如何将各个组的值子集,然后提供给均值函数?编辑以添加可重复的示例:
ra