前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python | Python学习之unicode和utf8

Python | Python学习之unicode和utf8

作者头像
咸鱼学Python
发布2019-10-09 15:07:28
1K0
发布2019-10-09 15:07:28
举报
文章被收录于专栏:咸鱼学Python咸鱼学Python
中文乱码、unicode和utf8

http://openskill.cn/article/448 https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386819196283586a37629844456ca7e5a7faa9b94ee8000

开始之前我们先了解下ASCII、GB2312、unicode、UTF-8都是啥?

编码演化史

ASCII编码

在很久很久以前,美国人发明了计算机,计算机只能处理数字也就是把文字转换为8个bit也就是一个字节,8个bit最大能表示的数字为255,而[A-Z]、[a-z]、[0-9]再加上键盘上的一些符号正好255个,所以ASCII编码就成为了美国人的标准编码(用一个字节代表一个字母或者符号),正好也满足了美国人的需求。

GB2312

有了上面的情况,我大中国表示不服,我们中国汉字博大精深,255个明显是满足不了我们的需求的,于是我们就发明了GB2312编码(用两个字节表示汉字),不仅包含了ASCII码还能表示我们的中国的汉字,于是有了我们中国的例子,世界各国纷纷研究出了支持自己语言的编码,在这种情况下多种语言混合显示就出现了乱码的情况了,对于这种情况就出现了unicode编码将所有语言统一到一起。

unicode

unicode编码的出现解决了多国语言展示乱码的问题,但是unicode的解决方案在全英文文档展示的情况下,unicode编码会比ASCII编码多一倍的存储空间(unicode的编码是16bit的,在表示ASCII编码时是直接在前面加上8个0)相应的在传输的时候就多了一倍的传输时间,在这种情况下就出现了UTF8编码。

UTF8

UTF8编码相比于8bit的ASCII编码和16bit的unicode编码来说,UTF8编码是不定长的,它可以使用两个字节代表英文,用三个字节代表中文,UTF8这个时候优势就很大了,在实际运用中,我们可以将文件编码互相转换以获取最大化的利用内存,把文件保存在内存中我们采用内存占用更小的UTF8编码的格式,读写文件时我们采用更大更全的unicode编码,具体实例图如下:

示例图

代码演示

Python2.7
windows

在python2.7中当要将字符串encode为utf8,我们需要确保之前的字符串的编码方式为unicode,所以当字符串编码不为unicode时,我们需要使用decode方法,而在使用decode方法时我们需要指明原有字符串的编码格式(在windows系统中解释器默认编码为GB2312,Linux系统中为UTF-8编码),所以就有了s.decode("gb2312").encode("utf-8")

decode示意图

Linux

按照上面解读,我们在Linux系统下操作如下:

这里就有一个疑问既然原有系统默认的字符串编码为utf-8,为什么不可以直接使用s.decode().encode('utf-8')?原因就是,如若不指定原有的系统编码格式(utf-8),Linux系统下会调用python解释器的默认编码ASCII解析字符串,演示如下:

所以在根据上面的情况,在python2中出现编码互转的情况,可以参考下图:

Python3.6

Python2.7和Python3.6最大的区别就是在执行Python2.7项目时,当项目中包含汉字时,需要在文件头声明编码格式,否则项目中的中文显示就是乱码。 而在Python3中完全没有这样的顾虑,那是因为默认python3中全部的字符串就是unicode可以直接使用encode方法。

综上:为了避免给自己添麻烦,请认准unicode和UTF-8编码。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 咸鱼学Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 编码演化史
    • ASCII编码
      • GB2312
        • unicode
          • UTF8
          • 代码演示
            • Python2.7
              • windows
              • Linux
            • Python3.6
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档