之前笔者写过一篇文章关于如何做搜索,但那篇文章的角度是从文本相似度角度写的。那种方式是目前发展的趋势,但是真正的搜索特别是网页搜索不可能在大范围的文本之间两两算相似度的。...例如句子刘得华演过的电影”与“刘德华演过的电影”只需要一次替换“得”为“德”,所以二者之间的距离为1。如果两个字符串S1和S2,长度分别为i,j。...那么二者之间的距离D(i,j)可以表示为:
(1)min(i,j)==0,即S1,S2中存在空字符串
D(i,j)=max(i,j)
(2)min(i,j) !...(1)安装
需要安装python-Levenshtein库用于计算上述讲解的编辑距离。...不考虑词语出现的次数;
process.extract(S1, ListS,limit=n),表示从列表ListS中找出Top n与S1最相似的句子;
process.extractOne(S1,ListS