我有许多子字(每个2-5个字),我想在一些大约40-50字长的文本中搜索。标记匹配子字符串的最有效方法是什么。
目前我只是简单地使用:
for substring in substrings:
if substring in fullText:
return True
子字符串-要搜索的字符串列表
fullText -要搜索的文本。
这种解决方案最糟糕的情况是,在fullText上反复搜索所有子字符串。
发布于 2018-04-15 08:40:23
从您的列表中创建一个正则表达式(类似于“word3 1\Word2而外3”),并使用您的语言可用的正则表达式函数。它有望创建一个为匹配而优化的数据结构,可能是一个有限状态机或类似的东西。
https://softwareengineering.stackexchange.com/questions/369383
复制相似问题