好的,我看到了很多关于模糊字符串匹配,Levenstein距离,最长的公共子字符串的帖子,等等。他们似乎都不适合我想做的事。我正在从各种web服务中提取产品结果,从这些服务中我可以为该产品建立一个大的名称列表。这些名称可能包括一堆可变的垃圾。下面是一些来自SearchUPC的例子:
Apple 60W magsafe adapter L-shape with extension cord
Original Apple 60W Power Adapter (L-shaped Connector) for MacBook MC461LL/A with AC Extension Wall Cord