好像又到了各个手机厂商的各种发布会了有兴趣的可以关注下,全面屏时代好像真的要来了,苹果的iOS12好像也上线了防沉迷系统。
今天的汉子编码真的是属于科普类,完全没有什么技术的东西在里面,懂的话,我觉得还是不要看了
从今天的工作说起吧,组长让把一份文件导入数据库,我们知道一般导入的是CSV文件,但是组长发过来的是txt文件,需要excel进行分列数据处理,打开txt文件(注意我电脑默认用notepad++打开的)
但是把他拖到excel中就变成了这样:
没错乱码,但是你打开txt进行另存为新的格式UTF-8或者Unicode:
之后再拖:
是吧 OK了。很简单,不过我觉得生活之后也或多或少的听说过这些编码格式,今天我就说说简单的两种吧
GBK1830(GBK(GB2312))
Unicode ---utf-8
我们知道GBK这类编码又称为国标,就是国家规定的,然而windows7以前基本上用的就是这种格式,当然这种中国编制的储存汉字的方式还是蛮好的,但是如果其他编码方式的冲突呢,那就是乱码了,因为linux系统用的Unicode编码,数据和服务器基本上都是在Unix上面实现的,那么势必会冲突。这个时候就尴尬了。
GBK2312-80
GBK编码
95年制定,两个字节编码(8140~FEFE)(踢出XX7F)
GBK1830-2005
两个字节或者4个字节编码。
Unicode
如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种所有符号的编码。但Unicode是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样
所以出现了Unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示Unicode。Unicode在很长一段时间内无法推广,直到互联网的出现。
UTF-8
互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。这里的关系是,UTF-8是Unicode的实现方式之一。
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
在开始学习Python2 的时候这玩意经常出现,要不然就会出现中文报错,当然Python3已经解决了这个问题了。其实还有其他蛮有意思的编码,因为我也没接触过,这里就不敢多说了。拜
领取专属 10元无门槛券
私享最新 技术干货