前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >繁体中文大五码(Big5)编码详解

繁体中文大五码(Big5)编码详解

原创
作者头像
horstxu
修改2019-01-14 15:05:23
21.5K0
修改2019-01-14 15:05:23
举报
文章被收录于专栏:horstxu的博客horstxu的博客

在中国台湾、中国香港、中国澳门地区普遍使用繁体中文的情况下,当地电脑软件或操作系统经常使用Big5(又称大五码)作为繁体中文的默认文字编码。这一点可以类比简体中文系统中常见的GBK编码。同GBK编码一样,Big5编码也是采用双字节编码,兼容ASCII码。也就是说每个繁体中文汉字在Big5下占据2bytes。

最早的正式版Big5是1984年由中国台湾地区“资策会”订制(即BIG5-1984),编码总共收录了13053个汉字,其中常用字5401个,次常用字7652个。除此之外,还收录了408个标点符号或特殊符号。1984版一直流行于民间,但并非官方版,后续在2003年正式纳入了一些扩展字符(即BIG5-2003),成为官方版的Big5版本。因为Big5编码兼容ASCII,所以Big5的2bytes中,第一个byte不会和ASCII有重叠,即第一个Big5编码文字的第一个byte不会出现0x00至0x7F之间的值。但是Big5的第二个byte是有可能在0x00至0x7F之间,即与ASCII值重合的。

这里需要注意的是Big5编码并没有充分考虑到简体中文,虽然最终的Big5编码中包含了一些简体中文的常见字,但是并不全,导致你书写简体中文如果用Big5编码的话,有些字是打不出来的,所以非常不建议在简体中文环境中使用Big5。举个例子,“因为”的“为”子在简体中文里面非常常见,然而Big5编码中并没有简体的“为”字,在港澳台的繁体中文里面,“因为”的“为”应写作繁体中文“為”。

“为”字在Big5中没有收录,取而代之的是“為”

另外,“尴尬”的“尴”字在简体中文中属于常见字,但是Big5编码中也是没有的,取而代之的是“尷”。

“尴”字在Big5中没有收录,取而代之的是“尷”

另一点是,即使Big5和GBK中都有的文字,对同一个文字的具体编码也不一样,例如“港澳台”三个字在GBK和Big5中的值完全没有任何关系(当然,和UTF8更是不相关)。

BIG5编码值和GBK没有任何关系

一图胜千言,我们通过一张二维图来看一下Big5编码中各个文字的值域分布情况。

Big5-1984版本中2字节编码值域与字类型的对应关系

因为Big5编码每个字占据2bytes,所以我们以第一个byte的值为横轴(16进制表示,如1byte最大值255表示为0xFF),第二个byte的值为纵轴,绘制如上表格。该表格清晰地展示了Big5编码中各个值域所代表的文字类别。比如第一位如果是0x00-0x7F,则表示的是Big5与ASCII重合部分(第二位忽略)。第一位在0xA1-0xA3的区域为Big5编码的标点符号和特殊符号区域。如下图,句号“0xA143”、冒号“0xA147”、问号“0xA148”、希腊字母θ(读音/'θi:tə/)“0xA363”,他们的第一位都处于0xA1到0xA3之间。

标点符号区Big5编码值

第一位在0xA4-0xC6之间的基本都是常用字区,在繁体中文中最常用的5401个字的编码值域在此范围内。第一位在0xC9-0xF9之间的区域为次常用字区,繁体中文不常用的7652个字存储在此范围内。我们还在图中看到了一些造字区、保留区,造字区的本意是官方并不规定此值域内的具体文字,留给后续应用程序或操作系统自己定义。保留区的本意是此区域保留,不做编码使用。然而后来随着Big5编码的不断完善,Big5-2003版本发布后,正式将很多定义在保留区和造字区的常用字列入了官方标准当中。例如0xA3E1其实属于保留区,但是后来该值在Big5-2003中被定义为欧元货币符号(€)。

Big5-2003版本收录的保留区部分字符

再例如“广州”的“广”字,Big5编码为0xC6CE,属于造字区,在Big5-2003中被引入官方。

Big5-2003版本收录的造字区部分字符

虽然经过Big5-2003的扩展,很多造字区和保留区已经被使用,不过扩展出的都是在繁体中文当中用得不太频繁的文字或符号。基本上编码还是符合以下规律:首位0xA1-0xA3为符号或标点区域,首位0xA4-0xC6为常用字区域,首位0xC9-0xF9为次常用字区域。

Big5由于是繁体中文的编码,在大陆地区见得比较少,因此网上的学习资料也非常有限。了解字符编码的意义在于,如果我们在开发过程中碰到的乱码的情况,往往就是因为字符编码识别错误导致,要想把乱码恢复正常,就需要不同编码之间的识别和转换。若想正确识别出来一种字符编码,对该字符编码的了解还是非常有必要的。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档