我在一家公共卫生机构工作,该机构有许多不同的人口统计数据集--存储在SQL服务器、Access和Excel中。例如,一个“匹配”可能是First,Last和道布在两个数据集中都匹配--但SSN是'off by 1‘(由Levenshtein算法确定)。
这些都是大数据集。匹配标准可能会变得非常复杂。现在,我通过将两个数据集都放入内存中的数据表中,然后逐行遍历第一个表,查看第二个表中是否有匹配的行(使用LIN
在Server 2012中,让我们使用以下SQL创建三个表: Foos、Lookup1和Lookup2: Id int NOT NULL,
L1(它只是选择一个查找表。)它首先查找两个查找表,然后用于查找IX_Foos索引。是否可以使用提示来强制Server在第一个查询(带有联接)中先查找ids,然后将其用于