首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

A29:python中的编码问题

[info]在计算机中,经常遇到编码问题,本节主要梳理下ascii,unicode,utf8,gbk 这几种编码之间的关系。

ASCII

计算机中,所有数据都以0和1来表示。在一开始的时候,要表示的内容比较少,人们使用了ascii编码的方式来编码。

ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,(一个字节),即:2**8 -1 = 255,所以,ASCII码最多只能表示 255 个符号。

1 1 1 1 1 1 1 1 =2*0+2*1+2*2+2*3+2*4+2*5+2*6+2*7 = 2**8-1=255

Unicode,UTF-8,GBK

随着计算机的发展,显然ASCII码无法将世界上的各种文字和符号全部表示,所以,就需要新出一种可以代表所有字符和符号的编码,即:Unicode

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。Unicode规定所有字符和符号(16位)来表示,即2**16-1=65535

UTF-8,,他不再使用最少使用2个字节,而是将所有的字符和符号进行分类:ascii码中的内容用保存、欧洲的字符用保存,东亚的字符用保存…

GBK,也是,GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用来表示

python 中的编码使用规则

,

unicode 分为 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节), so utf-8就是unicode

在py3中encode,在,decode在

由上图分析可得:

GBK转UTF-8的流程

首先需要通过解码【decode】转换回Unicode编码

然后通过编码【encode】转换成UTF-8编码

UTF转GBK的流程

首先需要解码【decode】转换会Unicode编码

然后通过编码【encode】转换为GBK编码

建议

所有的地方,建议统一使用utf-8编码。包括py编译,ide的设置,文件的读写等。

[info] 本人非专业开发,正在学习的路上,参考代码只供参考,写得不好,请不要见笑,将你写的认为更好的示例留言哦,一起交流学习~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180730G0OXWX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券