我有几个DB的用户信息,每个10k-20k条目,每个条目来自两个不同的来源,并且每个条目都在不断增长。我希望创建一个工具,可以在一定的容忍度内通知类似的电子邮件,或类似的名称(第一个+‘’+最后)。我运行的是一个MySQL数据库,可以使用C++或PHP来运行比较。有没有人可以建议一些现有的解决方案/教程,让我只需对数据库或一组数据运行一次检查,然后返回可能的重复项?我只想让它找出一些像这样的常见错误:Josh O <> josh t O <>
我需要一个算法,在一个2D网格上随机生成一个大小为(M X N)的自回避多边形。自回避多边形的定义在here。这是网格上的闭合路径(环),它本身不交互。如果可能,该算法将更好地生成概率相等的任何可能的自回避多边形。 我可以想出迷宫生成算法,使用深度优先搜索来生成树wiki-link,然后树的圆周就是一个自我回避的多边形。但是这种方法不能生成所有可能的自回避多边形,例如网格内的最大矩形(M X N)。 ?