前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python 编码的这些坑,你还在踩吗!?

Python 编码的这些坑,你还在踩吗!?

作者头像
昱良
发布2019-06-14 14:19:39
4660
发布2019-06-14 14:19:39
举报

来源:imwty

链接:segmentfault.com/a/1190000007309014

常见的编码

ASCII: 1个字节,只编码英文字母和符号

gb2312: 2个字节,增加了中文汉字和符号

Unicode: 把所有语言都统一到一套编码里把所有语言都统一到一套编码里,

一般是2个字节,生僻字4个字节

utf-8: 可变长编码,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:

在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码,这样可以节省很多存储空间。

Python编码(python2.7)

在python中,strunicode都是basestring的子类,basestring有以下两个方法:

  • encode(): 将unicode字符串转换为其他编码字符串,参数为转换后编码
  • decode(): 将其他编码转换为unicode字符串,参数为转换前编码

PS:"string".decode( utf-8 ) == unicode( string , utf-8 )

代码语言:javascript
复制
 1s = 中文
 2
 3print type(s), len(s)
 4
 5u = u 中文
 6
 7print type(u), len(u)
 8
 9u2s = u 中文 .encode( utf-8 )
10
11print type(u2s), len(u2s)

结果

代码语言:javascript
复制
1<type str > 6
2
3<type unicode > 2
4
5<type str > 6

console下查看u2s

代码语言:javascript
复制
1>>> u 中文 .encode( utf-8 )
2
3中文

结论:

  • python中定义的一个str变量实则是字节串,由Unicode经过编码(encode)后的字节组成的(也正好印证了utf8编码中一个中文字符是3个字节)
  • Unicode才是真正意义上的字符串,由字符组成
代码语言:javascript
复制
 1s = 中文
 2
 3# 这时是str,转为unicode需要用decode
 4
 5u = s.decode( utf-8 )
 6
 7print type(u)
 8
 9# 打印 <type  unicode >
10
11# unicode转为str ,使用encode
12
13s2 = u.encode( utf-8 )
14
15print type(s2)
16
17# 打印 <type  str >

新结论:不同编码转换,使用Unicode作为中间编码

代码语言:javascript
复制
1#s是code_A的str
2
3s.decode( code_A ).encode( code_B )

在Python 3.x版本中,把 xxx 和u xxx 已经都统一成Unicode编码了,即写不写前缀u都是一样的,而以字节形式表示的字符串则必须加上b前缀:b xxx 。

由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行:

代码语言:javascript
复制
1#!/usr/bin/env python
2
3# -*- coding: utf-8 -*-
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习算法与Python学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档