此问题与Tools for matching name/address data相关。SAS、Oracle、Microsoft等公司提供了许多商业工具,它们允许对来自多个来源的个人或公司的名称进行去重或合并。
然而,在阅读了前面提到的问题的答案后,我想知道为什么一个看似有趣的问题没有收到任何提到可以解决该问题的开源项目的答案。
您是否知道有任何开源项目或算法来实现所谓的“记录链接”、“记录合并”或“集群”?
发布于 2010-05-11 05:25:56
我偶然发现了下面这篇文章:"Merge/Purge and Duplicate Detection“。
通过查看http://www.semaphorecorp.com,我发现了一些极低的价格。
这不是我想要的,但至少是一点帮助,在正确的方向上迈出了一步。
发布于 2014-01-19 01:51:57
在sourceforge上试用OSDQ开源数据质量和性能分析项目
https://stackoverflow.com/questions/2805511
复制相似问题