在Python中,有一种标准方法来规范化unicode字符串,以便它只能理解可用于表示它的最简单的unicode实体吗?
我的意思是,想用来翻译顺序比如:['LATIN SMALL LETTER A', 'COMBINING ACUTE ACCENT']
来['LATIN SMALL LETTER A WITH ACUTE']
?
看看问题出在哪里:
>>> import unicodedata
>>> char = "á"
>>> len(char)
1
>>> [ unicodedata.name(c) for c in char ]
['LATIN SMALL LETTER A WITH ACUTE']
但现在:
>>> char = "á"
>>> len(char)
2
>>> [ unicodedata.name(c) for c in char ]
['LATIN SMALL LETTER A', 'COMBINING ACUTE ACCENT']
当然,我可以遍历所有字符并进行手动替换等,但效率不高,而且我很确定我会错过一半的特殊情况,并且会犯错误。
发布于 2019-01-04 15:54:42
unicodedata.normalize(form, unistr)
您需要选择四种规范化形式中的一种。
https://stackoverflow.com/questions/-100006358
复制相似问题