我正在清理一个我继承的肮脏的数据库,需要“模糊匹配”的名字进行人工审查。我想出了一个可行的解决方案,但速度非常慢-- 15k行上只有7分钟。我觉得我忽略了一些非常简单的解决方案。Smith 5 David Jones7 Natalia LaBrody9 Dave Jones
我需要这个模糊匹配的多个标准我想出的
背景:我使用Mysql,有数百万的数据,每行有20列,我们有一些复杂的搜索和一些列使用模糊匹配,例如username like '%aaa%',它不能使用mysql索引,除非删除第一个%,但是我们需要模糊匹配来做类似Satckoverflow搜索的搜索,我也检查了Mysqlfulltext index,但如果使用其他索引,它不支持在一个sql中进行复杂的搜索。我的解决方案是:添加
我在MySQL表中有大量的VARCHAR条目(约4000万)。字符串的长度可以在5-80个字符之间。The qick brwn foxThs is another sntence
我希望能够将其转换为一个表单,在该表单中,我分配一个组ID,然后得到最佳匹配也许,我能给出的一个很好的理由是,由于错误,某些行是不同的,我想纠正它们。编辑2:不使用与DB性能相当的MySQL的</e