首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >规范化Unicode

规范化Unicode
EN

Stack Overflow用户
提问于 2019-01-04 06:25:39
回答 2查看 0关注 0票数 0

在Python中,有一种标准方法来规范化unicode字符串,以便它只能理解可用于表示它的最简单的unicode实体吗?

我的意思是,想用来翻译顺序比如:['LATIN SMALL LETTER A', 'COMBINING ACUTE ACCENT']['LATIN SMALL LETTER A WITH ACUTE']

看看问题出在哪里:

代码语言:javascript
复制
>>> import unicodedata
>>> char = "á"
>>> len(char)
1
>>> [ unicodedata.name(c) for c in char ]
['LATIN SMALL LETTER A WITH ACUTE']

但现在:

代码语言:javascript
复制
>>> char = "á"
>>> len(char)
2
>>> [ unicodedata.name(c) for c in char ]
['LATIN SMALL LETTER A', 'COMBINING ACUTE ACCENT']

当然,我可以遍历所有字符并进行手动替换等,但效率不高,而且我很确定我会错过一半的特殊情况,并且会犯错误。

EN

Stack Overflow用户

发布于 2019-01-04 15:54:42

代码语言:javascript
复制
unicodedata.normalize(form, unistr)

您需要选择四种规范化形式中的一种。

票数 0
EN
查看全部 2 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/-100006358

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档