专栏首页horstxu的博客繁体中文大五码(Big5)编码详解
原创

繁体中文大五码(Big5)编码详解

在台湾、香港、澳门地区普遍使用繁体中文的情况下,当地电脑软件或操作系统经常使用Big5(又称大五码)作为繁体中文的默认文字编码。这一点可以类比简体中文系统中常见的GBK编码。同GBK编码一样,Big5编码也是采用双字节编码,兼容ASCII码。也就是说每个繁体中文汉字在Big5下占据2bytes。

最早的正式版Big5是1984年由台湾地区“资策会”订制(即BIG5-1984),编码总共收录了13053个汉字,其中常用字5401个,次常用字7652个。除此之外,还收录了408个标点符号或特殊符号。1984版一直流行于民间,但并非官方版,后续在2003年正式纳入了一些扩展字符(即BIG5-2003),成为官方版的Big5版本。因为Big5编码兼容ASCII,所以Big5的2bytes中,第一个byte不会和ASCII有重叠,即第一个Big5编码文字的第一个byte不会出现0x00至0x7F之间的值。但是Big5的第二个byte是有可能在0x00至0x7F之间,即与ASCII值重合的。

这里需要注意的是Big5编码并没有充分考虑到简体中文,虽然最终的Big5编码中包含了一些简体中文的常见字,但是并不全,导致你书写简体中文如果用Big5编码的话,有些字是打不出来的,所以非常不建议在简体中文环境中使用Big5。举个例子,“因为”的“为”子在简体中文里面非常常见,然而Big5编码中并没有简体的“为”字,在港澳台的繁体中文里面,“因为”的“为”应写作繁体中文“為”。

“为”字在Big5中没有收录,取而代之的是“為”

另外,“尴尬”的“尴”字在简体中文中属于常见字,但是Big5编码中也是没有的,取而代之的是“尷”。

“尴”字在Big5中没有收录,取而代之的是“尷”

另一点是,即使Big5和GBK中都有的文字,对同一个文字的具体编码也不一样,例如“港澳台”三个字在GBK和Big5中的值完全没有任何关系(当然,和UTF8更是不相关)。

BIG5编码值和GBK没有任何关系

一图胜千言,我们通过一张二维图来看一下Big5编码中各个文字的值域分布情况。

Big5-1984版本中2字节编码值域与字类型的对应关系

因为Big5编码每个字占据2bytes,所以我们以第一个byte的值为横轴(16进制表示,如1byte最大值255表示为0xFF),第二个byte的值为纵轴,绘制如上表格。该表格清晰地展示了Big5编码中各个值域所代表的文字类别。比如第一位如果是0x00-0x7F,则表示的是Big5与ASCII重合部分(第二位忽略)。第一位在0xA1-0xA3的区域为Big5编码的标点符号和特殊符号区域。如下图,句号“0xA143”、冒号“0xA147”、问号“0xA148”、希腊字母θ(读音/'θi:tə/)“0xA363”,他们的第一位都处于0xA1到0xA3之间。

标点符号区Big5编码值

第一位在0xA4-0xC6之间的基本都是常用字区,在繁体中文中最常用的5401个字的编码值域在此范围内。第一位在0xC9-0xF9之间的区域为次常用字区,繁体中文不常用的7652个字存储在此范围内。我们还在图中看到了一些造字区、保留区,造字区的本意是官方并不规定此值域内的具体文字,留给后续应用程序或操作系统自己定义。保留区的本意是此区域保留,不做编码使用。然而后来随着Big5编码的不断完善,Big5-2003版本发布后,正式将很多定义在保留区和造字区的常用字列入了官方标准当中。例如0xA3E1其实属于保留区,但是后来该值在Big5-2003中被定义为欧元货币符号(€)。

Big5-2003版本收录的保留区部分字符

再例如“广州”的“广”字,Big5编码为0xC6CE,属于造字区,在Big5-2003中被引入官方。

Big5-2003版本收录的造字区部分字符

虽然经过Big5-2003的扩展,很多造字区和保留区已经被使用,不过扩展出的都是在繁体中文当中用得不太频繁的文字或符号。基本上编码还是符合以下规律:首位0xA1-0xA3为符号或标点区域,首位0xA4-0xC6为常用字区域,首位0xC9-0xF9为次常用字区域。

Big5由于是繁体中文的编码,在大陆地区见得比较少,因此网上的学习资料也非常有限。了解字符编码的意义在于,如果我们在开发过程中碰到的乱码的情况,往往就是因为字符编码识别错误导致,要想把乱码恢复正常,就需要不同编码之间的识别和转换。若想正确识别出来一种字符编码,对该字符编码的了解还是非常有必要的。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

推荐阅读

  • 远程办公经验为0,如何将日常工作平滑过度到线上?

    我是一名创业者,我的公司(深圳市友浩达科技有限公司)在2018年8月8日开始运营,现在还属于微型公司。这个春节假期,我一直十分关注疫情动向,也非常关心其对公司带来的影响。

    TVP官方团队
    TAPD 敏捷项目管理腾讯乐享企业邮箱企业编程算法
  • 数据中台,概念炒作还是另有奇效? | TVP思享

    作者简介:史凯,花名凯哥,腾讯云最具价值专家TVP,ThoughtWorks数据智能业务总经理。投身于企业数字化转型工作近20年。2000年初,在IBM 研发企业级中间件,接着加入埃森哲,为大型企业提供信息化架构规划,设计,ERP,云平台,数据仓库构建等技术咨询实施服务,随后在EMC负责企业应用转型业务,为企业提供云迁移,应用现代化服务。现在专注于企业智能化转型领域,是数据驱动的数字化转型的行业布道者,数据中台的推广者,精益数据创新体系的创始人,2019年荣获全球Data IQ 100人的数据赋能者称号,创业邦卓越生态聚合赋能官TOP 5。2019年度数字化转型专家奖。打造了行业第一个数据创新的数字化转型卡牌和工作坊。创建了精益数据创新方法论体系构建数据驱动的智能企业,并在多个企业验证成功,正在向国内外推广。

    TVP官方团队
    大数据数据分析企业
  • 扩展 Kubernetes 之 CRI

    使用 cri-containerd 的调用流程更为简洁, 省去了上面的调用流程的 1,2 两步

    王磊-AI基础
    Kubernetes
  • 扩展 Kubernetes 之 Kubectl Plugin

    kubectl 功能非常强大, 常见的命令使用方式可以参考 kubectl --help,或者这篇文章

    王磊-AI基础
    Kubernetes
  • 多种登录方式定量性能测试方案

    最近接到到一个测试任务,某服务提供了两种登录方式:1、账号密码登录;2、手机号+验证码登录。要对这两种登录按照一定的比例进行压测。

    八音弦
    测试服务 WeTest
  • 线程安全类在性能测试中应用

    首先验证接口参数签名是否正确,然后加锁去判断订单信息和状态,处理用户增添VIP时间事务,成功之后释放锁。锁是针对用户和订单的分布式锁,使用方案是用的redis。

    八音弦
    安全编程算法
  • 使用CDN(jsdelivr) 优化博客访问速度

    PS: 此篇文章适用于 使用 Github pages 或者 coding pages 的朋友,其他博客也类似.

    IFONLY@CUIT
    CDNGitGitHub开源
  • 扩展 Kubernetes 之 CNI

    Network Configuration 是 CNI 输入参数中最重要当部分, 可以存储在磁盘上

    王磊-AI基础
    Kubernetes
  • 聚焦【技术应变力】云加社区沙龙online重磅上线!

    云加社区结合特殊时期热点,挑选备受关注的音视频流量暴增、线下业务快速转线上、紧急上线防疫IoT应用等话题,邀请众多业界专家,为大家提供连续十一天的干货分享。从视野、预判、应对等多角度,帮助大家全面提升「技术应变力」!

    腾小云
  • 京东购物小程序购物车性能优化实践

    它是小程序开发工具内置的一个可视化监控工具,能够在 OS 级别上实时记录系统资源的使用情况。

    WecTeam
    渲染JavaScripthttps网络安全缓存

扫码关注云+社区

领取腾讯云代金券