前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >彻底搞懂 Python 编码

彻底搞懂 Python 编码

作者头像
sylan215
发布2020-03-03 14:40:58
4490
发布2020-03-03 14:40:58
举报

因为中文的特殊编码,导致 Python2 和 Python3 使用过程中的各种编码问题,如果不清楚其中的关联关系,那么这就一直是个大坑,不是懵逼就还是懵逼,所以就目前碰到的情况彻底梳理下 Python2 和 Python3 中编码的关系和区别,以作备忘。

先说下涉及编码格式的几个地方:

  1. 脚本字符编码:就是经常在脚本文件开头看到的 # -*- coding: utf-8 -*-,如果使用 Python2,没有显式声明的话默认使用 ASCII 格式,Python3 默认使用 utf-8 格式;
  2. 解释器字符编码:可以通过函数 sys.getdefaultencoding() 查看,Python2 默认是 ASCII,Python3 默认使用 utf-8;
  3. 脚本文件存储编码:就是 py 脚本文件本身在物理介质上面的存储格式,通常有 ASCII、GBK、utf-8 等格式。

下面我们把上述编码分别在脚本中进行组合使用后,再使用 Python2.6 和 Python3.4 运行,看看实际都什么效果。

1.默认脚本文件编码 + 文件存储使用 gbk

脚本内容:

import sysprint(sys.getdefaultencoding())
print('中文')

使用 Python2.6 运行的结果如下,提示gbk 编码字符 \xd6 非 ASCII 字符:

> python26 test_gbk.py
 File "test_gbk.py", line 4SyntaxError: Non-ASCII character '\xd6' in file test_gbk.py on line 4, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

使用 Python3.4 运行的结果如下,提示gbk 编码字符 \xd6 非 utf-8 字符:

> python26 test_gbk.py
 File "test_gbk.py", line 4SyntaxError: Non-UTF-8 code starting with '\xd6' in file test_gbk.py on line 4, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

结论:默认的 gbk 编码中文,Python2的解释器字符编码(ASCII)和 Python3的解释器字符编码(utf-8)格式都没法识别,因为 ASCII 编码不包含中文,而 utf-8 是 3 字节编码,gbk 是 2 字节编码,所以都识别不了了。

2.脚本文件编码 gbk + 文件存储使用 gbk

在刚才的脚本头部显式声明脚本文件编码格式为 gbk:

#coding:gbkimport sysprint(sys.getdefaultencoding())
print('中文')

使用 Python2.6 运行的结果:

> python26 test_gbk.py
ascii
中文

使用 Python3.4 运行的结果:

> python34 test_gbk.py
utf-8中文

结论:文件使用的 gbk 格式存储,同时显式声明了脚本文件编码为 gbk,Python2 和 Python3 都可以正常处理。

3.脚本文件编码 utf-8 + 文件存储使用 gbk

在刚才的脚本头部显式声明脚本文件编码格式为 utf-8:

# -*- coding: utf-8 -*-import sysprint(sys.getdefaultencoding())
print('中文')

使用 Python2.6 运行的结果正常:

> python26 test_gbk.py
ascii
中文

使用 Python3.4 运行的结果如下,提示尝试使用 utf-8 解码字符 0xd6 时异常:

> python34 test_gbk.py
File "test_gbk.py", line 6SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

结论:文件使用的 gbk 格式存储,同时显式声明了脚本文件编码为 utf-8时,但是 Python2 在 Windows 平台还是使用 gbk 进行输出,所以解析正常,而 Python3 使用 utf-8 所以解析异常。

4.默认脚本文件编码 + 文件存储使用 utf-8

去掉之前脚本头部的声明,然后使用 utf-8 格式存储文件(注意,不能在刚才的文件基础上强制修改存储编码,强制转换会出现中文乱码的问题,建议先新建一个 utf-8 格式的文件,然后再输入中文):

import sysprint(sys.getdefaultencoding())
print('中文')

使用 Python2.6 运行的结果如下,ASCII 也识别不了 utf-8 格式的字符 \xe4

> python26 test.py
 File "test.py", line 4SyntaxError: Non-ASCII character '\xe4' in file test.py on line 4, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

使用 Python3.4 运行的结果,可以正常识别,因为 Python3 默认使用 utf-8 编码:

> python34 test.py
utf-8中文

结论:默认的 utf-8 编码中文,Python2 会默认使用 ASCII 读取,所以没法识别,Python3 可以正常识别。

5.脚本文件编码 gbk + 文件存储使用 utf-8

脚本头部显式声明脚本文件编码格式为 gbk,同时使用 utf-8 格式存储文件:

#coding:gbkimport sysprint(sys.getdefaultencoding())
print('中文')

使用 Python2.6 运行的结果如下,使用 gbk 根本读取不了 utf-8 格式任何内容:

> python26 test.py
File "test.py", line 6SyntaxError: 'gbk' codec can't decode bytes in position 9-10: illegal multibyte sequence

使用 Python3.4 运行的结果如下,其实和上面错误一样,但是提示更直接了:

> python34 test.py
File "test.py", line 1SyntaxError: encoding problem: gbk

结论:默认的 utf-8 编码中文,如果显式指定使用 gbk 读取,Python2 和 Python3 都没法做到。

6.脚本文件编码 utf-8 + 文件存储使用 utf-8

脚本头部显式声明脚本文件编码格式为 utf-8,同时使用 utf-8 格式存储文件:

# -*- coding: utf-8 -*-import sysprint(sys.getdefaultencoding())
print('中文')

使用 Python2.6 运行的结果如下,虽然读取正确了,但是 Python2 在 Windows 系统会默认使用 gbk 对中文进行解码,所以输出乱码:

> python26 test.py
ascii
涓枃

使用 Python3.4 运行的结果正常:

> python34 test.py
utf-8中文

结论:虽然文件存储编码和脚本文件编码都是 utf-8,但是 Windows 平台上,Python2 会按 gbk 解析中文,所以会输出乱码,可以在中文前面加 u 来解决u'中文',或者显式使用 utf-8 进行一次 decode。

汇总下验证结果,可以得到如下的表格:

不同组合下 Python3 和 Python2 处理结果

Python3

Python2

默认脚本文件编码 + 文件存储使用 gbk

SyntaxError,解析错误

SyntaxError,解析错误

脚本文件编码 gbk + 文件存储使用 gbk

正常输出中文

正常输出中文

脚本文件编码 utf-8 + 文件存储使用 gbk

SyntaxError,解析错误

正常输出中文

默认脚本文件编码 + 文件存储 utf-8

正常输出中文

SyntaxError,解析错误

脚本文件编码 gbk + 文件存储使用 utf-8

SyntaxError,解析错误

SyntaxError,编码错误

脚本文件编码 utf-8 + 文件存储使用 utf-8

正常输出中文

中文输出乱码

总结下结论:
  1. 如果使用 Python2 请一定要使用 gbk 格式存储文件;
  2. 如果使用 Python2 尽可能使用 gbk 存储文件且显式声明脚本文件编码为 gbk,方便后续兼容 Python3;
  3. 如果使用 Python3 不管使用什么格式存储文件,但请一定保证显式声明脚本文件编码和存储格式一致;
  4. 不管是使用 Python2 还是 Python3,保持显式声明脚本文件编码的好习惯;
  5. 如果脚本有跨平台需求,推荐使用 Python3 + 脚本文件编码 utf-8 + utf-8 格式存储文件的组合;
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 sylan215 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.默认脚本文件编码 + 文件存储使用 gbk
  • 2.脚本文件编码 gbk + 文件存储使用 gbk
  • 3.脚本文件编码 utf-8 + 文件存储使用 gbk
  • 4.默认脚本文件编码 + 文件存储使用 utf-8
  • 5.脚本文件编码 gbk + 文件存储使用 utf-8
  • 6.脚本文件编码 utf-8 + 文件存储使用 utf-8
  • 总结下结论:
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档