我想获取所有看起来几乎相同的符号(从所有字母表中),并将其替换为最接近的ASCII字符。所以它看起来就像:Ĉ,o,ö,ó,øUnicode o。这不一定是音译的,就像这个库https://github.com/gcardone/junidecode
(我们不应该把符号翻译成ASCII码(意思接近于-> s),但我们应该发现ASCII码符号与Ĉ组(例如Ĉ-C)非常相似)。
发布于 2017-10-31 00:09:39
我不认为这个问题有任何简单的解决方案,因为你想要分组的符号,并不是一个真正的组。符号“、?、?和”在形状上都是类似于“O”的,并且具有相似的代码点(0xD2-0xD8)。在一些语言中,他们甚至可能有一些相似的发音,尽管这不能保证。一个恰当的例子是字母'eth‘,它看起来有点像"o“,但在任何使用它的语言(据我所知)中,它的发音都不太相似。您已经认识到法语中的"ç“在发音上更可能与"s”相关,而不是其形状类似于"c“。
我认为如果你想承担这项任务,你将不得不通过逐个码位转换来完成它(啊!)然而,我认为更难的问题根本不在编程中--它将寻找对读者来说真正有意义的映射,因为符号形状和语言角色之间几乎没有联系。这种类型的原型错误是将西班牙语的“año”(年份)呈现为"ano“(意思是"anus")。你真的不想犯这样的错误。
https://stackoverflow.com/questions/47014698
复制相似问题