你还在为Python中文乱码而感到烦恼?今天老司机给你讲讲!

有没有遇到过这样的问题,读取文件被提示“UnicodeDecodeError”、爬取网页得到一堆乱码,其实这些都是编码惹的祸,如果不能真正理解编码的问题所在,就像开车没有带导航,游泳没有带有度数的眼镜。如果你正在为此而 头疼,不妨来看看这篇文章,里面或许有你要的答案。

一些基本的编码知识

1).常见的编码格式

ASCII/ANSI:

ASCII可以简单理解为用于表述英文文字的编码。ANSI是ASCII的扩展,除英文外还可以表示拉丁文。

GB2312/GBK/GB18030:

“GB”既“国标”,是中国自己的编码方案,目的当然是为了描述汉字(下文我们统称 其为GB系列)。其中,GB2312是对ASCII的中文扩展,GBK和GB18030的涵盖了GB2312的所有内容,同时 又增加了近20000个新的汉字(包括繁体字)和符号。

Unicode:

既然中国搞出了自己的编码标准,那么其他国家当然也有自己的一套规范,而且相互之间互不支持,为了解决这一乱象,国际标谁化组织提出了统一的标准编码准则Unicode 。这里大家 可以先简单记住一点:python3 Unicode 

UTF-8:

说得官面一点,utf-8是最流行的一种对 Unicode 进行传播和存储的编码方式。其实我们可以简单理 解为,utf-8是为了节省Unicode的存储资源和传输流量而产生的一种编码方式,其所能表述的字符范围与Unicode是相等的,但是相对于Unicode它更加轻量化,相对于GB系列它的涵盖范围更广、兼容性也更好。

2).Python3中的编码与解码

Python3中有两种数据类型(注意是数据类型而不是编码方式):str和bytes。str类型存储unicode数据,用于向人展示数据,既我们所说的明文。bytes类型用于存储字节数据,用于计算机存储和传输。

明文(str)和字节(bytes)数据之间的转换关系就是编码和解码,从str到bytes叫编码,用encode命令,从bytes到str叫解码,用decode命令。需要注意的是,str数据无法进一步decode,bytes数据也无法进一步encode。

下面我们来看一个例子,首先看编码过程:

解码过程如下:

# 输入:b = b'\xd6\xd0\xce\xc4-\xb2\xe2\xca\xd4' # 中文-测试的gbk编码print(b.decode('gbk'))# 输出:中文-测试

可以看到,encode()不加参数得到的结果与使用utf-8编码方式是一样的,因为python3中的默认编码就是utf-8,GB系列之间的编码是相同的,但是GB系列和utf-8的编码方式不一样,其编码后产生的字节数据也不相同,看到这里我们应该可以意识到,使用utf-8编码的数据只能通过utf-8进行解码,使用“GB”编码的数据也只能使用“GB”来解码,既解码与编码的规范要一致,否则就会出错。刚整理了一套2018最新的0基础入门和进阶教程,无私分享,加python学习q-u-n :二二七,四三五,四五零 即可获取,内附:开发工具和安装包,以及系统学习路线图

那么不同的编码数据能否相互转换呢,当然可以,因为他们所对应的unicode数据都是统一的,看下面这张图:

对于一组字节数据,我们可以先将其解码为unicode数据,再使用其他的编码格式转换为相应的字节数据。

这里需要提醒一点,有人在得到一份乱码数据(str)后试图先对其编码(比如utf-8),再以另外一种方式解码(比如GB2312),这样肯定是行不通的,原因刚才我们已经讲过——编码解码要一致,解决中文乱码的正确环节应该在它出现之前。

3).编码格式识别

刚才我们已经演示了数据编码解码的过程,对于一份str数据编码可以选定我们想要的方式进行编码,那么如果拿到的是一份字节数据,如何判断它该以何种方式解码呢?这里推荐一个第三方库chardet ,使用“pip install chardet”命令安装后导入该库,使用detect方法来判断字节数据的编码格式。

在上面这个例子中,我们先从文本文件中获取了一组str数据,分别使用utf-8和GB2312编码,并使用chardet.detect方法识别。

我们来看输出结果,‘encoding’参数后面的值是系统“猜测”的字节数据编码格式,‘confidence’参数后面的值可以理解为是判断可靠度,取值在0到1之间,0.99表示可靠度99%,从上面的例子中可以发现,chardet的判断还是很准确的。

常见问题及解决方法

看完了上面的内容我们可能已经察觉到,平时遇到的编码问题大多数都是编码与解码方式不一致造成的,下面我们就针对python编程过程中一些常见的编码问题来举例说明。

1.文件读写

问题描述:

大家有没有遇到过这类情况:试图打开一个文本文件却提示“UnicodeDecodeError: 'gbk' codec can't decode byte 0xxx in position XX”,或者直接打开csv文件却显示乱码?对于这类问题我们要首先了解系统文件的编码机制,以我使用的win7系统为例,文件的默认编码方式为GB2312,假如我们想要打开的是一份以utf-8或者其他非GB系列编码的文件,自然是很容易出现各类问题的。

解决办法:

对于这类问题,我们可以在程序外部使用第三方软件转换文件的编码格式,但是我更推荐另一种方式,既在代码中使用encoding参数指定编码格式,这种方式不仅适用于打开文本文件,也适用于csv等其他文件。

# 文本文件with open(r'trainers.txt', encoding='utf-8') as f: names = f.read(100)

2.网页爬取

问题描述:

相信学python的朋友很多都玩过爬虫,如果我们需要获取的数据是数字或者英文还好,但如果我们想要获取的是中文数据,就有可能得到一堆乱码,这类问题产生的原因与文件操作道理是一样的,既系统默认选择的编码方式与网页数据的实际编码方式不一致。

python里请求网页获取数据的方式很多,这里以Requests库为例进行说明,当请求发出后,Requests 会基于HTTP头部对响应的编码作出有根据的推测,并返回一个名为r的Response对象。

当你访问 r.text 之时,Requests 会使用其推测的文本编码,当Requests的推测与实际情况不符时,错误就发生了。

解决办法:关于这个问题,Requests文档里已经给出了明确解决方案,既使用r.encoding属性来手动指定编码方式(例如:r.encoding='GBK'),那么我们如何确定网页数据的真实编码方式呢?一般来说可以按照优先级依次查看以下三个位置:

http header的Content-Type参数

网页头中标签的charset参数

网页头中Document的charset参数

例如,新浪体育的网页数据编码方式可以在网页头的标签找到

如果以上三处都无法找到网页编码怎么办?不要怕,我们还可以使用r.content属性来获得网页的字节数据(类似“\xe4\xb8\xad\xe6\x96\x87-\xe6\xb5\x8b\xe8\xaf\x95”的形式),然后使用上面提到的chardet库来进行识别。

如果使用爬虫框架或者其他方式获取网页数据,具体的操作方式可能略有不同,但处理编码问题的道理都是一样的。

这里还要提醒一点,网上有一些爬虫教程示例,返回的数据是“\xe4\xb8\xad\xe6......”形式的字节数据,看完这篇文章我们知道这并不是乱码,只需要以对应的方式进行解码即可。

3.巧用errors参数

问题描述:

如果找到了文件的编码并用对应的方式进行编码和解码就一定不会出错吗?当然不是,之前我在使用python分析武侠小说的时候就遇到过这个问题,虽然使用正确的编码方式(GB2312)来读取文本文件但依然报错,经过分析发现是由于文本中有一些特殊字符无法识别。

解决方法:

设置errors参数将那些制造问题的字符忽略掉,获取对我们真正有用的数据。

with open(r'楚留香系列午夜兰花.txt', errors='ignore') as f: text = f.read()

同类的问题在爬取网页时也有可能遇到,解决思路都是一样的。

另外,errors参数的作用还有很多,例如我们想获取既能被GBK识别又能被GB2312识别的数据(前面我们说过GBK编码的涵盖范围要比GB2312多),可以先使用GB2312对其进行编码,同时忽略到无法识别的字符,随后再以GB2312的方式解码,代码如下:

data_2312 = data.encode('gb2312', errors='ignore').decode('gb2312')

关于Python中常见的中文编码问题今天就先介绍到这里,需要注意的是,python2和python3的编码方式略有不同,本文内容主要针对python3。Python的知识点非常多,大家平时要养成记笔记的习惯,把自己的一些心得记下来,学会总结是一个不错的习惯

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏JAVA高级架构

11 个简练的 Java 性能调优技巧

大多数开发者认为性能优化是一个复杂的话题,它需要大量的工作经验和相关知识理论。好吧,这也不完全错。优化一个应用做到性能最优化可能不是件容易的任务,但是这并不意味...

3536
来自专栏灯塔大数据

技术 | Python从零开始系列连载(十五)

在Python中使用try...except 结构创建 ' 隔离区 ',也就是进行异常处理

941
来自专栏Pythonista

Python之路,Day1 - Python基础1

python的创始人为吉多·范罗苏姆(Guido van Rossum)。1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解...

1995
来自专栏王清培的专栏

Redis 数据结构与内存管理策略(上)

Redis 数据结构与内存管理策略(上) 标签: Redis Redis数据结构 Redis内存管理策略 Redis数据类型 Redis类型映射 作者:王清培(...

3377
来自专栏Golang语言社区

无辜的goroutine

简介: 本文主要是针对一些对于goroutine的“指控”提出我自己的看法,特别是轩脉刃的一篇博客文章《论go语言中goroutine的使用》提出了gorout...

36611
来自专栏Java技术栈

Java 编程中关于异常处理的 10 个最佳实践

异常处理是Java 开发中的一个重要部分。它是关乎每个应用的一个非功能性需求,是为了处理任何错误状况,比如资源不可访问,非法输入,空输入等等。Java提供了...

1704
来自专栏Urahara Blog

Using get_defined_functions To Hidden A PHP Backdoor

1782
来自专栏Golang语言社区

无辜的goroutine

简介: 本文主要是针对一些对于goroutine的“指控”提出我自己的看法,特别是轩脉刃的一篇博客文章《论go语言中goroutine的使用》提出了gorout...

3135
来自专栏玄魂工作室

Hacker基础之Python篇:一、环境安装和基础知识

0x01. 前言 emmmmmmm...你只需知道这是一门用途很广的语言,上到大数据AI,下到Linux运维,都可以使用Python,当然,黑客也用Pyth...

3026
来自专栏大史住在大前端

javascript基础修炼(7)——Promise,异步,可靠性

Promise技术是【javascript异步编程】这个话题中非常重要的,它一度让我感到熟悉又陌生,我熟悉其所有的API并能够在编程中相对熟练地运用,却对其中原...

1185

扫码关注云+社区

领取腾讯云代金券