专栏首页算法channel什么是 Unicode文本标准化?

什么是 Unicode文本标准化?

最近遇到unicodedata模块,才知道它的一个应用。某些字符能够用多个合法的编码表示,这就会导致一些问题。

如一个字符ñ既可以使用\u00f1,也可以使用n\u0303表示,如下所示:

In [2]: '\u00f1'                                                                                                                 
Out[2]: 'ñ'

In [3]: 'n\u0303' # 注意前面有个字符n                                                                            
Out[3]: 'ñ'

原因是第一种表示\u00f1为整体表示法,第二种n\u0303为组合表示法,是n和字符~的组合字符。

很显然,在需要比较字符串的程序中,使用像上面字符的多种表示法会产生问题,如下所示:

In [4]: s1='\u00f1'                                                            

In [5]: s2='n\u0303'                                                            

In [6]: s1==s2                                                                 
Out[6]: False

我们期望上面的字符ñ在两种表示下是相等的,这就需要使用unicodedata模块,将这些字符标准化:

s1='\u00f1' 
s2='n\u0303'
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
In [25]: t1==t2                                                                
Out[25]: True

normalize() 第一个参数指定字符串标准化的方式。NFC表示字符应该是整体组成,还有其他标准化方法如NFD,上面的字符n\u0303 的组合n\u0303,就是NFD表示法。

埃格斯特朗符号 Å,在NFC中总是被代换成在视觉上相同的U+00C5(Å –在上方带环的A)。在NFD中,则会换成由U+0041(A) 和U+030A(°)这两个字符所组成的序列。

标准化对于任何需要以一致的方式处理Unicode文本的程序,正规化是很重要,因为它影响了比较、搜索和排序的意义。

以上就是这个话题的基本总结,欢迎点赞支持。

本文分享自微信公众号 - Python与机器学习算法频道(alg-channel),作者:zhenguo

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-04-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • unicodedata.normalize ——Unicode文本标准化

    在Unicode中,某些字符能够用多个合法的编码表示。为了说明,考虑下面的这个例子:

    种花家的奋斗兔
  • 什么是Robots协议,标准写法是什么

    沈唁
  • 什么是 C 和 C ++ 标准库?

    简要介绍编写C/C ++应用程序的领域,标准库的作用以及它是如何在各种操作系统中实现的。

    顶级程序员
  • 为什么要特征标准化

    各位小伙伴们大家好,今天让我们来聊一聊机器学习中的所需要的数据这个话题,首先,我们先开始想一个问题,为了让机器学习更加的方便消化,我们需不需要对一些数据动一些手...

    云时之间
  • 什么是等保2.0?读懂等保标准新变化

    2008年发布的《GB/T22239-2008 信息安全技术 信息系统安全等级保护基本要求 》简称为等保1.0。 近年来随着人工智能、大数据、物联网、云计算等的...

    安智客
  • 数据处理中的标准化、归一化,究竟是什么?

    今天说一个比较重要的内容,无论是在算法建模还是在数据分析都比较常见:数据归一化和标准化。

    小一不二三
  • \u4e00-\u9fa5是什么意思?Unicode编码,匹配中文

    答:\u4e00-\u9fa5是用来判断是不是中文的一个条件,采用的是unicode编码

    种花家的奋斗兔
  • 从本质到实现,谈谈什么是 C 和 C ++ 标准库?

    源 / 开源中国 简要介绍编写C/C ++应用程序的领域,标准库的作用以及它是如何在各种操作系统中实现的。 我已经接触C++一段时间了,一开始就让我感到疑惑的是...

    顶级程序员
  • 为什么要做特征归一化/标准化?

    Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到fe...

    李拜六不开鑫

扫码关注云+社区

领取腾讯云代金券