问规范化Unicode
EN

Stack Overflow用户

提问于 2019-01-04 06:25:39

回答 2查看 0关注 0票数 0

在Python中，有一种标准方法来规范化unicode字符串，以便它只能理解可用于表示它的最简单的unicode实体吗？

我的意思是，想用来翻译顺序比如：['LATIN SMALL LETTER A', 'COMBINING ACUTE ACCENT']来['LATIN SMALL LETTER A WITH ACUTE']？

看看问题出在哪里：

>>> import unicodedata
>>> char = "á"
>>> len(char)
1
>>> [ unicodedata.name(c) for c in char ]
['LATIN SMALL LETTER A WITH ACUTE']

但现在：

>>> char = "á"
>>> len(char)
2
>>> [ unicodedata.name(c) for c in char ]
['LATIN SMALL LETTER A', 'COMBINING ACUTE ACCENT']

当然，我可以遍历所有字符并进行手动替换等，但效率不高，而且我很确定我会错过一半的特殊情况，并且会犯错误。

回答 2

Stack Overflow用户

发布于 2019-01-04 15:17:17

该unicodedata模块提供了一个.normalize()功能，您想要标准化为NFC格式：

>>> unicodedata.normalize('NFC', u'\u0061\u0301')
u'\xe1'
>>> unicodedata.normalize('NFD', u'\u00e1')
u'a\u0301'

NFC或'Normal Form Composed'返回组合字符，NFD，'Normal Form Decomposed'为您提供分解的组合字符。

额外的NFKC和NFKD表单处理兼容性代码点; 例如U + 2160（ROMAN NUMERAL ONE）与U + 0049（LATIN CAPITAL LETTER I）完全相同，但在Unicode标准中存在以保持与单独处理它们的编码兼容。使用NFKC或NFKD表单，除了编写或分解字符外，还将使用其规范形式替换所有“兼容性”字符：

>>> unicodedata.normalize('NFC', u'\u2167')  # roman numeral VIII
u'\u2167'
>>> unicodedata.normalize('NFKC', u'\u2167') # roman numeral VIII
u'VIII'

票数 0

Stack Overflow用户

发布于 2019-01-04 15:54:42

unicodedata.normalize(form, unistr)

您需要选择四种规范化形式中的一种。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/-100006358

复制

相似问题

问规范化Unicode
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问规范化UnicodeEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问规范化Unicode
EN