前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >什么是 Unicode文本标准化?

什么是 Unicode文本标准化?

作者头像
double
发布2021-04-21 16:17:33
6900
发布2021-04-21 16:17:33
举报
文章被收录于专栏:算法channel算法channel

最近遇到unicodedata模块,才知道它的一个应用。某些字符能够用多个合法的编码表示,这就会导致一些问题。

如一个字符ñ既可以使用\u00f1,也可以使用n\u0303表示,如下所示:

代码语言:javascript
复制
In [2]: '\u00f1'                                                                                                                 
Out[2]: 'ñ'

In [3]: 'n\u0303' # 注意前面有个字符n                                                                            
Out[3]: 'ñ'

原因是第一种表示\u00f1为整体表示法,第二种n\u0303为组合表示法,是n和字符~的组合字符。

很显然,在需要比较字符串的程序中,使用像上面字符的多种表示法会产生问题,如下所示:

代码语言:javascript
复制
In [4]: s1='\u00f1'                                                            

In [5]: s2='n\u0303'                                                            

In [6]: s1==s2                                                                 
Out[6]: False

我们期望上面的字符ñ在两种表示下是相等的,这就需要使用unicodedata模块,将这些字符标准化:

代码语言:javascript
复制
s1='\u00f1' 
s2='n\u0303'
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
In [25]: t1==t2                                                                
Out[25]: True

normalize() 第一个参数指定字符串标准化的方式。NFC表示字符应该是整体组成,还有其他标准化方法如NFD,上面的字符n\u0303 的组合n\u0303,就是NFD表示法。

埃格斯特朗符号 Å,在NFC中总是被代换成在视觉上相同的U+00C5(Å –在上方带环的A)。在NFD中,则会换成由U+0041(A) 和U+030A(°)这两个字符所组成的序列。

标准化对于任何需要以一致的方式处理Unicode文本的程序,正规化是很重要,因为它影响了比较、搜索和排序的意义。

以上就是这个话题的基本总结,欢迎点赞支持。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档