说说简单的汉字编码

文章来源：企鹅号 - 高画质电影

好像又到了各个手机厂商的各种发布会了有兴趣的可以关注下，全面屏时代好像真的要来了，苹果的iOS12好像也上线了防沉迷系统。

今天的汉子编码真的是属于科普类，完全没有什么技术的东西在里面，懂的话，我觉得还是不要看了

从今天的工作说起吧，组长让把一份文件导入数据库，我们知道一般导入的是CSV文件，但是组长发过来的是txt文件，需要excel进行分列数据处理，打开txt文件（注意我电脑默认用notepad++打开的）

但是把他拖到excel中就变成了这样：

没错乱码，但是你打开txt进行另存为新的格式UTF-8或者Unicode：

之后再拖：

是吧 OK了。很简单，不过我觉得生活之后也或多或少的听说过这些编码格式，今天我就说说简单的两种吧

GBK1830(GBK(GB2312))

Unicode ---utf-8

我们知道GBK这类编码又称为国标，就是国家规定的，然而windows7以前基本上用的就是这种格式，当然这种中国编制的储存汉字的方式还是蛮好的，但是如果其他编码方式的冲突呢，那就是乱码了，因为linux系统用的Unicode编码，数据和服务器基本上都是在Unix上面实现的，那么势必会冲突。这个时候就尴尬了。

GBK2312-80

GBK编码

95年制定，两个字节编码（8140~FEFE）(踢出XX7F)

GBK1830-2005

两个字节或者4个字节编码。

Unicode

如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表示的，这是一种所有符号的编码。但Unicode是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样

所以出现了Unicode的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示Unicode。Unicode在很长一段时间内无法推广，直到互联网的出现。

UTF-8

互联网的普及，强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。这里的关系是，UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

在开始学习Python2 的时候这玩意经常出现，要不然就会出现中文报错，当然Python3已经解决了这个问题了。其实还有其他蛮有意思的编码，因为我也没接触过，这里就不敢多说了。拜

发表于: 2018-06-052018-06-05 23:39:46
原文链接：https://kuaibao.qq.com/s/20180605G22VCK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

说说简单的汉字编码

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐