汉字编码历史

Qt君最近在处理字符乱码的问题,顺便看了下关于汉字字符编码的历史,总结分享给大家。

  早期美国计算机显示字符采用数字映射字母的方式,感觉挺好用,在60年代就做出了ASCII编码,从0-127共128个字符(包含不可见字符)。

  眼巴巴地看着美国用计算机技术助力登月,又发展民用科技。于是我们国家在80年代大力发展计算机技术,可是出现的问题是,汉字显示不了。不行,我们要和世界接轨,于是GB2312编码横空出世,囊括了六千多个常用汉字。

  随着信息化的发展,GB2312似乎也不满足日常使用了,特别是生僻字。由于汉字编码的限制身份证显示不了生僻字,需要特殊处理,有的人甚至是改名字。于是在90年代在GB2312的基础上扩展到两万多个汉字的字符编码GBK。

  不得不说中华文化博大精深,两万多个汉字似乎也是不够用,继续发展汉字编码。GB2312编码进化为GB18030编码,扩展到了七万多文字,还包含了少数民族文字。

  历史的车轮不断前进,文化相互融合与碰撞。由于各国都自制字符编码,没有统一标准,不同的系统中显示各国文字互相乱码,你眼看我眼,大家对着乱码挠头。

  不行,我们要统一起来,于是一个叫ISO的国际标准化组织制定Unicode编码。随着Unicode编码规范的建立,其实现方式有UTF-8,UTF-16,UTF-32。由于UTF-8采用变长的编码方式实现,其节省空间,兼容ASCII标准的优点, 在互联网上使用最广的一种Unicode的实现方式。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191010A0R4C300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券