我需要找到一个子集的子集,并且需要迭代地进行,然后在这个子集的每个实例上计算一个值,然后将其保存到一个新的输出表中。为了更好地解释,我有一个类似于下图所示的数据框; 我需要迭代数据集,并对团队A(组2)的所有人员1(组1)的成本求和。我的理解是使用嵌套循环,如下所示: for Person in Group1:
output.append(Person, Team, Newcost
我需要导出数据框的两个子集,如下所示: df <- data.frame(factor = c("A", "A", "B", "B"), var = "value")
factor var1 A value3 B value
4 B value 我使用group_split()按因子拆分数据帧,但似乎无法将
我目前正在使用Python Record Linkage Toolkit对工作中的数据集执行重复数据消除。在理想的情况下,我只需要使用阻塞或排序邻域来减少记录对索引的大小,但有时我需要对包含超过75k条记录的数据集进行完整索引,这会导致数十亿条记录对。我实际上将这个子集建议合并到了一个方法中,用于将多索引拆分成多个子集并运行这些子集,但它没有绕过.index()调用似乎将整个多索引加载到内存中并导致内存不足错误的问题