Levenshtein距离算法也适用于非英语字符串吗?
更新:当比较亚洲字符时,这在像这样的语言中会自动工作吗?
发布于 2010-02-17 11:11:10
只有当语言是以字母为基础的。比如俄语德语..。但是象形文字(比如中国)或者音节(比如老挝)--不是。
发布于 2010-02-17 11:08:38
是。但是,您必须将非英语字符视为"1字符“,而不是多个字符(例如utf-8)。例如,在python中,您可以使用unicode类来表示字符串(和字符)。
发布于 2010-02-17 11:10:28
Levenshtein并不关心语言,它只是告诉您需要更改多少个字符(添加、删除、交换)才能从一个字符串得到另一个字符串。
所以:是的,但你必须检查你的字符集,一些外国的“单”字符,否则我会被视为两个(或更多)字符。
https://stackoverflow.com/questions/2280022
复制相似问题