首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

说说简单的汉字编码

好像又到了各个手机厂商的各种发布会了有兴趣的可以关注下,全面屏时代好像真的要来了,苹果的iOS12好像也上线了防沉迷系统。

今天的汉子编码真的是属于科普类,完全没有什么技术的东西在里面,懂的话,我觉得还是不要看了

从今天的工作说起吧,组长让把一份文件导入数据库,我们知道一般导入的是CSV文件,但是组长发过来的是txt文件,需要excel进行分列数据处理,打开txt文件(注意我电脑默认用notepad++打开的)

但是把他拖到excel中就变成了这样:

没错乱码,但是你打开txt进行另存为新的格式UTF-8或者Unicode:

之后再拖:

是吧 OK了。很简单,不过我觉得生活之后也或多或少的听说过这些编码格式,今天我就说说简单的两种吧

GBK1830(GBK(GB2312))

Unicode ---utf-8

我们知道GBK这类编码又称为国标,就是国家规定的,然而windows7以前基本上用的就是这种格式,当然这种中国编制的储存汉字的方式还是蛮好的,但是如果其他编码方式的冲突呢,那就是乱码了,因为linux系统用的Unicode编码,数据和服务器基本上都是在Unix上面实现的,那么势必会冲突。这个时候就尴尬了。

GBK2312-80

GBK编码

95年制定,两个字节编码(8140~FEFE)(踢出XX7F)

GBK1830-2005

两个字节或者4个字节编码。

Unicode

如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种所有符号的编码。但Unicode是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样

所以出现了Unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示Unicode。Unicode在很长一段时间内无法推广,直到互联网的出现。

UTF-8

互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。这里的关系是,UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

在开始学习Python2 的时候这玩意经常出现,要不然就会出现中文报错,当然Python3已经解决了这个问题了。其实还有其他蛮有意思的编码,因为我也没接触过,这里就不敢多说了。拜

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180605G22VCK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券