python 字符编码处理总结

问题引入

python中经常遇到这样那样的字符编码问题,尤其在处理网页源码时(特别是爬虫中):

UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 12-15: illegal multibyte...

每次看到上面这段文字的时候,感觉整个世界都昏暗了,然后就只能各种搜索找资料,过后就忘了。下次遇到时就让世界再昏暗一次。为了彻底解决这个拦路虎,今天咱们就好好的来唠嗑唠嗑。

下面以汉字'哈'来解释作示例解释所有的问题,汉字“哈”的各种编码如下:

1 UNICODE(UTF8-16): 0xC854

2 UTF-8: 0xE59388

3 GBK: 0xB9FE

除此之外还有如gb2312, big5等。例如一些含有繁体字的页面,比如www.google.com.hk首页中用的就是big5码, 不知道港台的码农同时处理简体字繁体字是不是更郁闷(笑脸)

处理解决

首先,在python中提到unicode,一般指的是unicode对象,例如'哈哈'的unicode对象为u'\u54c8\u54c8'

而str是一个字节数组,这个字节数组表示的是对unicode对象编码后(如utf-8、gbk、cp936、GB2312)的存储的格式,这里它仅是一个字节流,没有其它的含义,如果你想使这个字节流显示的内容有意义,就必须用正确的编码格式,解码显示。

例如:(注意是在windows下)

s = u'哈哈'

s_utf8 = s.encode('utf-8')

pirnt s_utf8

>>> 鍝堝搱

悲剧...

s_utf8这时实际上是'\xe5\x93\x88\xe5\x93\x88'

而下面的代码才可以正常显示:

s_gdb = s.encode('gbk') # s_gdk 这时是'\xb9\xfe\xb9\xfe'

print s_gbk

>>> 哈哈 #正常了

因为print语句它的实现是将要输出的内容传 送了操作系统,操作系统会根据系统的编码对输入的字节流进行编码,这就解释了utf-8格式的字符串“哈哈”,输出的是“鍝堝搱”,因为 '\xe5\x93\x88\xe5\x93\x88'用GB2312去解释,其显示的出来就“鍝堝搱”。

这里再强调一下,str记录的是字节数组,只是某种编码的存储格式,至于输出到文件或是打印出来是什么格式,完全取决其解码的编码将它解码成什么样子。

str和unicode对象的转换,通过encode和decode实现,具体使用如下:再次强调windows下:

s = '哈哈'

print s.decode('gbk').encode('utf-8')

>>> 鍝堝搱

反之亦然,有兴趣可以尝试其他转换

有时当我们遇到把s(gbk字符串)直接编码成utf-8的时候,将抛出异常,但是通过调用如下代码:

import sys

reload(sys)

sys.setdefaultencoding('gbk')

后就可以转换成功,为什么呢?

在python中str和unicode在编码和解码过程中,如果将一个str直接编码成另一种编码,会先把str解码成unicode,采用默认编码,一般默认编码是anscii,所以在上面示例代码中第一次转换的时候会出错,

当设定当前默认编码为'gbk'后,就不会出错了。至于reload(sys)是因为Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入。一般不推荐这样使用。本来reload都是应该避免使用的函数。

对于操作不同文件的编码格式的文件,也会遇到这样的问题

建立一个文件test.txt,文件格式用ANSI,内容为:

abc中文

然后用python来读取

# coding=gbk

print open("Test.txt").read()

结果:abc中文

把文件格式改成UTF-8:

结果:abc涓枃,显然,这里需要解码:

# coding=gbk

import codecs

print open("Test.txt").read().decode("utf-8")

结果:abc中文

上面的test.txt我是用Editplus来编辑的,但当我用Windows自带的记事本编辑并存成UTF-8格式时,

运行时报错:

Traceback (most recent call last):

File "ChineseTest.py", line 3, in

print open("Test.txt").read().decode("utf-8")

UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence

原来,某些软件,如notepad,在保存一个以UTF-8编码的文件时,

会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。

因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

结果:abc中文

最后,有些时候编码搞对了,但是遇到了非法字符,比如产生字符串的来源发生错误,引入了错误值等,这时再次遇到异常

例如:全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,

这些字符,看起来都是全角空格,但它们并不是“合法”的全角空格

真正的全角空格是\xa1\xa1,因此在转码的过程中出现了异常。

而之前在处理新浪微博数据时,遇到了非法空格问题导致无法正确解析数据。

解决办法:

将获取的字符串strTxt做decode时,指明ignore,会忽略非法字符,

当然对于gbk等编码,处理同样问题的方法是类似的

strTest = strTxt.decode('utf-8', 'ignore')

return strTest

默认的参数就是strict,代表遇到非法字符时抛出异常;

如果设置为ignore,则会忽略非法字符;

如果设置为replace,则会用?号取代非法字符;

如果设置为xmlcharrefreplace,则使用XML的字符引用。

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2018-09-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏landv

C语言_函数【转】

50330
来自专栏前端菜鸟变老鸟

ES6(二):Promise

ES6之前解决异步编程只能使用回调函数或事件,ES6中加入了 Promise,使得异步编程更加简洁直观和合理

13030
来自专栏GreenLeaves

Flyweight享元模式(结构型模式)

虽然OOP能很好的解决系统抽象的问题,并且在大多数的情况下,也不会损失系统的性能。但是在某些特殊的业务下,由于对象的数量太多,采用面向对象会给系统带来难以承受的...

11420
来自专栏Android相关

X86 Assemble指令--MOVS指令簇

该指令簇包括: MOVS mem16,mem16:显式指定源操作数与目的操作数 MOVSB:每次移动一个字节 MOVSW:每次移动一个字 MOVSD:每...

15820
来自专栏用户2442861的专栏

Python 编码转换与中文处理

python 中的 unicode是让人很困惑、比较难以理解的问题. 这篇文章 写的比较好,utf-8是 unicode的一种实现方式,unicode、gb...

65920
来自专栏轮子工厂

一篇文章帮你解决中文乱码问题---JavaWeb中文编码问题全面解析

这就是为什么我们在浏览器的地址栏中能看到中文,但是把地址拷贝出来后中文就变成了一些奇怪的串了。

84840
来自专栏null的专栏

挑战数据结构和算法——整数的二进制表示中1的个数

题目来源“数据结构与算法面试题80道”。在此给出我的解法,如你有更好的解法,欢迎留言。 ? 问题分析:本题涉及到二进制的处理,在本题使用到&操作和>>操作...

33960
来自专栏Python小屋

Python处理文本文件案例一则

问题描述:当前文件夹中有一文件data.txt,其中包含一些自然数,每行一个。要求编写程序,读取data.txt中的所有自然数,将其升序排序之后写入新文件dat...

13830
来自专栏Young Dreamer

简易前端模板引擎

模板解析 解决的问题: 将data和js+html片段解析成html片段,完成赋值和js逻辑,如下所示: 输入: var data = {     name: ...

228100
来自专栏日常学python

再有人问什么是元类,就把这篇文章扔给他!

我之前在深入理解python中的类和对象中说过,python中的类也是一个对象,可以说是类对象,可以由 type() 来创建类对象的。有了这个知识我们先看看下面...

12220

扫码关注云+社区

领取腾讯云代金券