我目前正在使用Python Record Linkage Toolkit对工作中的数据集执行重复数据消除。在理想的情况下,我只需要使用阻塞或排序邻域来减少记录对索引的大小,但有时我需要对包含超过75k条记录的数据集进行完整索引,这会导致数十亿条记录对。我遇到的问题是,我可以使用的工作站内存不足,因此它无法存储完整的25-30亿对多索引。我实际上将这个子集建议合并到
在我正在阅读的文本( Joan Casteel的Oracle11g: SQL )中,它说“多对多关系不能存在于关系数据库中”。我知道我们要避免它们,我也知道如何创建一个桥接实体来消除它们,但我正在努力完全理解“无法存在”这句话。或者它只是效率非常低,因为它导致了大量的数据重复?在我看来是后一种情况,桥接实体最小化了重复的数据。但也许我漏掉了什么?我还没有找到一个具体的理由