我的问题是,我们希望我们的用户在输入的某个地方输入这样的代码:639195-EM-66-XA-53-WX,所以结果可能是:The code is 639195-EM-66-XA-53-WX, let me如果代码中出现小错误(Levenshtein距离为1),我们仍然希望与字符串匹配。例如,The code is 739195-EM-66-XA-53-WX, let me in。(在代码的第一个字母中将6更改为7 )
即使用户跳过破折号,算法也应该匹配
我是一个新的进入NLP (自然语言处理)。作为一个启动项目,我正在开发一个释义识别器(一个可以识别两个类似句子的系统)。对于这个识别器,我将在三个层次上应用不同的度量,即:词汇、句法和语义。对于这些度量,我使用谢菲尔德大学( University )开发的simMetrics软件包,其中包含了许多相似的度量。但是对于Levenshtein距离和Jaro-Winkler距离度量而言,代码只位于字符级别的,而我需要句子级