在理想的情况下,我只需要使用阻塞或排序邻域来减少记录对索引的大小,但有时我需要对包含超过75k条记录的数据集进行完整索引,这会导致数十亿条记录对。我遇到的问题是,我可以使用的工作站内存不足,因此它无法存储完整的25-30亿对多索引。has ideas for doing record linkage with two large data sets using numpy split,它对我的使用来说很简单,但不提供
我有一个熊猫数据框架,格式如下: head relation tail2 two IsAnumber15 one IsA number 从上面的数据框中,我只想保留一条记录,其中头部实体与尾部实体相同,尾部实体与头部实体相同例如,从索引为0和索引12的记录中,我只想保留一个,可能是第一个,也可能是最后一个,任何东西都可以。例如,在保