我有两个表,包含以下字段:
我试图找到两个表之间的匹配记录和最有可能匹配的记录,但由于输入错误、数据丢失、名称拼写的变化等原因,这些记录不完全匹配。
一些数据丢失了。但是对于所有存在的数据,两个表对于每个数据元素都具有相同的格式/数据类型。
理想情况下,我希望为结果建立某种加权机制。
如果SSN是一个直接匹配,那么我们就有一个匹配。但我也想考虑一下,如果有一个用户输入错误和2位数字混淆或类似的情况。
我在皮卡上有什么选择?
如果我运行多个变体(示例),直线匹配就可以了。
然而,我希望部署一个更完整的解决方案,并正在寻找关于如何继续进行的任何技巧。
https://stackoverflow.com/questions/33636497
复制相似问题