关于python的编解码(decode, encode)

总结总结,本文仅适用于python2.x

默认编码与开头声明

首先是开头的地方声明编码

# coding: utf8

这个东西的用处是声明文件编码为utf8(要写在前两行内),不然文件里如果有中文,比如

a = '美丽'b = u'美丽'

中任何一种,运行前就会提示你SyntaxError,Non-ASCII character… 之类,因为python2.x的文件编码默认使用万恶的ascii 开头加上那句默认编码声明就会变成utf8,获取当前的默认编码

sys.getdefaultencoding()

unicode与utf8

在python中,使用unicode类型作为编码的基础类型,编解码要以其为中间形式过渡,即进行strunicode之间的转换。 解码然后再编码的过程,即str->unicode->str的过程。中间得到的叫做unicode对象

这里需要强调的是unicode是一种字符编码方法,是 “与存储无关的表示”,而utf8是一种以unicode进行编码的计算机二进制表示,或者说传输规范。gbkgb2312gb18030, utf8等属于不同的字符集,转换编码就是在它们中的任意两者间进行。

具体过程

具体的转换,比如直接将一个字符串encode成另一种字符集表示,注意此处是字符串,即typestr的,引号前没有加u前缀的

# coding: utf8s='美丽's.encode('gbk')

则实际上会先以默认编码进行decode,即decode('ascii'),开头声明了utf8,s的编码就是utf8,ascii解码不了utf8的字符会报错。那就改默认编码,

# coding: utf8import sys

reload(sys)
sys.setdefaultencoding('utf-8')

s='美丽's.encode('gbk')

这样把默认编码改成utf8,decode的时候就以默认编码utf8来进行,能够成功运行

或者decode时指定类型,

# coding: utf8import sys

s='美丽's.decode('utf8').encode('gbk')

对于typeunicode的,即加了u前缀的字符串,如上所说,直接encode即可

# coding: utf8import sys

s = u'美丽's.encode('gbk')

控制台的编码

这又是另一个让人困惑的地方——控制台的编码导致的乱码问题甚至是报错。一般个人用的电脑上控制台基本上都是utf8编码的,但运维的机器上基本全是ascii,print中文的时候就会有酸爽的问题。乱码问题一般发生在windows下面,因为那个编码的字符集很与众不同。所以当以正确方式编解码以后,还是出现问题,那问题很可能就出在控制台上了

来源:segmentfault

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-12-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

那些神奇的一行 Python 代码

Python 这门语言非常的有趣,不仅可以做高大上的人工智能、大数据、机器学习。还可以用来做 Web、爬虫。还有其它很多的应用。今天我就给大家展示下一行 Pyt...

17940
来自专栏Java帮帮-微信公众号-技术文章全总结

Java面试系列15

一、Static Nested Class 和 Inner Class的不同 Nested Class (一般是C++的说法),Inner Class (一般...

34440
来自专栏Hongten

python开发_python概述

Python(KK 英语发音:/ˈpaɪθən/,是一种面向对象、直译式计算机程序设计语言,

14120
来自专栏思考的代码世界

Python网络数据采集之数据清洗|第06天

记得之前我在爬去boss网站的招聘信息的时候,抓取的数据并非我们所理想的样式,后面经过处理后,成为一个自己想要的样子,这个过程可以理解为数据清洗。这里的处理是在...

54870
来自专栏非著名程序员

编程内功心法:如何写代码?

写代码就是学一门语言然后开始撸代码吗?看完了我的《GoF 设计模式》系列文章的同学或者本身已经就是老鸟的同学显然不会这么认为。编程是一项非常严谨的工作!

692130
来自专栏Golang语言社区

(重载)厚土Go学习笔记 | 04. 导入和导出的不同 用math.Pi来举例

菅俊菠,70后IT人,程序员到产品经理/项目经理,先后涉猎教育、企管、煤矿、电商等多个领域的系统开发和团队管理工作。擅长业务分析、团队管理,关注前沿技术,目前注...

8930
来自专栏斑斓

利用Actor实现管道过滤器模式

《基于Actor的响应式编程》计划分为三部分,第一部分剖析响应式编程的本质思想,为大家介绍何谓响应式编程(Reactive Programming)。第二部分则...

31340
来自专栏web前端教室

《一个陌生同学的留言》-- “老尚,你一定要讲设计模式”

image.png 以前就曾经有人问过我,“老尚,你说是不是有的面试官以虐新人为乐?”,,,我说,“传说中,据说有”,,,他说,“我觉得这应该不是传说。” //...

20480
来自专栏AlgorithmDog的专栏

Akka 使用系列之一: 快速入门

最近在看 Spark 相关的资料,准备整理一个 Spark 系列。Akka 是 Spark 实现内部通讯的组件,Spark 启动过程的第一步便是建立 A...

268100
来自专栏快乐八哥

JavaScript中this关键字使用

在Web开发中,前端掌握JavaScript,后台掌握PHP成为一个趋势。当然后台掌握C#/Java,当然还有Python,Ruby其中的一种,都是可以的。其实...

24390

扫码关注云+社区

领取腾讯云代金券