我正在R中构建一个地址匹配模块,在该模块中,我希望使用R找到inAddress列表与所有地址dbAddress的数据库之间的匹配。假设地址包含要匹配的street number, street name, postal code, city。我想考虑一些匹配规则,例如:
街道号码应该是完全匹配的,除非找不到,否则考虑模糊匹配。到目前为止,我有几个想
我需要匹配大约2500万个地址记录与大约20万个其他地址记录。我也希望有一个小的模糊度,所以比较准确的匹配是一种出局。地址被解析成两个数据集中的分量。它们都存储在SQL Server 2008数据库中。
我有一个想法是分批进行比较(按状态对批进行分组),直到我到达最后,将匹配项转储到临时数据库中。这可以在.NET应用程序中完成,但我不认为这样做效率太高,因为我必须将数据从SQL拉到应用程序中,然后逐个迭代。线程化可以