我目前正在使用Python Record Linkage Toolkit对工作中的数据集执行重复数据消除。在理想的情况下,我只需要使用阻塞或排序邻域来减少记录对索引的大小,但有时我需要对包含超过75k条记录的数据集进行完整索引,这会导致数十亿条记录对。ideas for doing record linkage with two large data sets using numpy split,它对我的使用来说很简单,但不提供任何在单个数据帧内进行重复数据删除的功能我实际上将这个子集建议合并到了一个方法中,用于将多<em