汉字编码历史

文章来源：企鹅号 - Qt君

Qt君最近在处理字符乱码的问题，顺便看了下关于汉字字符编码的历史，总结分享给大家。

早期美国计算机显示字符采用数字映射字母的方式，感觉挺好用，在60年代就做出了ASCII编码，从0-127共128个字符(包含不可见字符)。

眼巴巴地看着美国用计算机技术助力登月，又发展民用科技。于是我们国家在80年代大力发展计算机技术，可是出现的问题是，汉字显示不了。不行，我们要和世界接轨，于是GB2312编码横空出世，囊括了六千多个常用汉字。

随着信息化的发展，GB2312似乎也不满足日常使用了，特别是生僻字。由于汉字编码的限制身份证显示不了生僻字，需要特殊处理，有的人甚至是改名字。于是在90年代在GB2312的基础上扩展到两万多个汉字的字符编码GBK。

不得不说中华文化博大精深，两万多个汉字似乎也是不够用，继续发展汉字编码。GB2312编码进化为GB18030编码，扩展到了七万多文字，还包含了少数民族文字。

历史的车轮不断前进，文化相互融合与碰撞。由于各国都自制字符编码，没有统一标准，不同的系统中显示各国文字互相乱码，你眼看我眼，大家对着乱码挠头。

不行，我们要统一起来，于是一个叫ISO的国际标准化组织制定Unicode编码。随着Unicode编码规范的建立，其实现方式有UTF-8，UTF-16，UTF-32。由于UTF-8采用变长的编码方式实现，其节省空间，兼容ASCII标准的优点，在互联网上使用最广的一种Unicode的实现方式。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货