问是否可以将所有相似的Unicode字符分组为合适的ASCII字符
EN

Stack Overflow用户

提问于 2017-10-30 19:57:53

回答 2查看 308关注 0票数 0

我想获取所有看起来几乎相同的符号(从所有字母表中)，并将其替换为最接近的ASCII字符。所以它看起来就像:Ĉ，o，ö，ó，øUnicode o。这不一定是音译的，就像这个库https://github.com/gcardone/junidecode (我们不应该把符号翻译成ASCII码(意思接近于-> s)，但我们应该发现ASCII码符号与Ĉ组(例如Ĉ-C)非常相似)。

character-encoding

grouping

java

string

unicode

Stack Overflow用户

发布于 2017-10-31 00:09:39

我不认为这个问题有任何简单的解决方案，因为你想要分组的符号，并不是一个真正的组。符号“、？、？和”在形状上都是类似于“O”的，并且具有相似的代码点(0xD2-0xD8)。在一些语言中，他们甚至可能有一些相似的发音，尽管这不能保证。一个恰当的例子是字母'eth‘，它看起来有点像"o“，但在任何使用它的语言(据我所知)中，它的发音都不太相似。您已经认识到法语中的"ç“在发音上更可能与"s”相关，而不是其形状类似于"c“。

我认为如果你想承担这项任务，你将不得不通过逐个码位转换来完成它(啊！)然而，我认为更难的问题根本不在编程中--它将寻找对读者来说真正有意义的映射，因为符号形状和语言角色之间几乎没有联系。这种类型的原型错误是将西班牙语的“año”(年份)呈现为"ano“(意思是"anus")。你真的不想犯这样的错误。

票数 2

查看全部 2 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47014698

复制

相似问题

问是否可以将所有相似的Unicode字符分组为合适的ASCII字符
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否可以将所有相似的Unicode字符分组为合适的ASCII字符EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否可以将所有相似的Unicode字符分组为合适的ASCII字符
EN