Python3中文字符编码问题

前言

最近在尝试 Python Web方面的开发尝试,框架使用的是Django,但是在读取数据库并页面展示的时候,出现了中文编码的问题。

问题

我们看下面一段代码,获取小说章节列表:

def main(request):
    sql = "SELECT id,title FROM novel LIMIT 10;"
    result = mysql.getAll(sql)
    context = {'novel_list': result}
    return render(request, 'novel_list.html',  context)

页面输出:

{% for novel in novel_list %}
    <a href="/chapter/{{novel.id}} "><li>{{ novel.title }}</li></a>
{% endfor %}

如果不加任何转换,页面上显示的中文将会是字节码。

解决

这里我们举一个稍微简单的例子,dict是数据库中查询出来的数据:

import json
dict = {'id': 1, 'title': b'\xe7\xac\xac\xe4\xb8\x80\xe7\xab\xa0 \xe7\xa7\xa6\xe7\xbe\xbd'}
dup = json.dumps(dict ,ensure_ascii=False)
print(dup)

Python2执行输出:

{"id": 1, "title": "第一章 秦羽"}

Python3执行报错:

TypeError: Object of type bytes is not JSON serializable

查询了半天,最终解决方案:

安装模块:

pip3 install numpy

最终代码:

import json
import numpy as np


class MyEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, np.ndarray):
            return obj.tolist()
        elif isinstance(obj, bytes):
            return str(obj, encoding='utf-8');
        return json.JSONEncoder.default(self, obj)

dict  = {'id': 1, 'title': b'\xe7\xac\xac\xe4\xb8\x80\xe7\xab\xa0 \xe7\xa7\xa6\xe7\xbe\xbd'}
dup = json.dumps(dict , cls=MyEncoder, ensure_ascii=False, indent=4)
print(dup)

你也可以for循环,然后单个转码:

sql = "SELECT id,title FROM novel LIMIT 10;"
result = mysql.getAll(sql)
for each in result:
    ach['title'] = each['title'].decode('utf-8')

字符串通过编码转换为字节码,字节码通过解码转换为字符串:

str--->(encode)--->bytes,bytes--->(decode)--->str

decode和encode详解

  • decode 解码,在已知字符串编码的情况下,转码为unicode ,比如 s.decode('utf-8'),结果为unicode
  • encode 编码,在已有unicode的情况下,转码为其它编码,比如 u.encode('utf-8'),结果为utf-8

Web输出

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。

Python3 中可以使用 json 模块来对 JSON 数据进行编解码,它包含了两个函数:

  • json.dumps(): 对数据进行编码。
  • json.loads(): 对数据进行解码。
def main(request):
    sql = "SELECT id,title FROM novel LIMIT 10;"
    result = mysql.getAll(sql)
    # 转Json对象
    result = json.dumps(result, cls=MyEncoder, ensure_ascii=False, indent=4)
    # 转字典类型
    result = json.loads(result)
    context = {'novel_list': result}
    return render(request, 'novel_list.html',  context)

参数详解

json.dumps(result, cls=MyEncoder, ensure_ascii=False, indent=4)
indent

根据数据格式缩进显示,读起来更加清晰,indent的数值,代表缩进的位数。

ensure_ascii

如果无任何配置,或者说使用默认配置, 输出的会是中文的ASCII字符吗,而不是真正的中文。 这是因为json.dumps 序列化时对中文默认使用的ascii编码。

{
    "id": 1,
    "title": "\u7b2c\u4e00\u7ae0 \u79e6\u7fbd"
}
cls

dict类型的数据(存在中文),在python2中是可以转化的,但是在python3中存在序列化问题:

TypeError: Object of type bytes is not JSON serializable

小结

在Web开发中,这个问题真的很讨厌,中文编码来回转换,限于目前水平,只能这么解决,后续更新更优的方案。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钟绍威的专栏

初学File类

对File类的基本方法的理解 今天刚开始学了File类 一开始看思想编程看得迷迷糊糊的,之后受不了了,直接去看API文档 归纳: File->jav...

202100
来自专栏林德熙的博客

C# BBcode 转 Markdown

本文的方法都是使用正则转换,现在支持的代码只有很少的常用标签,如果大家发现有转换失败的,请帮我修改代码,估计代码我不会进行修改。

6910
来自专栏GreenLeaves

SQL学习之空值(Null)检索

在创建表表,我们可以指定其中的列包不包含值,在一列不包含值时,我们可以称其包含空值null。 确定值是否为null,不能简单的检查是否=null。select语...

28190
来自专栏xingoo, 一个梦想做发明家的程序员

Elasticsearch 连接查询

在一般的关系型数据库中,都支持连接操作。 在ES这种分布式方案中进行连接操作,代价是十分昂贵的。 不过ES也提供了相类似的操作,支持水平任意扩展,实现连接...

351100
来自专栏二进制文集

设计模式之——单例模式

单例模式是在面试中是最容易被考到的设计模式,这是因为单例模式是设计模式中最简单的,几行代码就能搞定(现场手写代码);同时单例模式又有多种实现方式,涉及到线程安全...

12530
来自专栏魏琼东

基于DotNet构件技术的企业级敏捷软件开发平台 - AgileEAS.NET - 数据关系映射ORM

      上一遍我介绍了AgileEAS.NET中统计的数据访问,本文我将来介绍AgileEAS.NET中的ORM实现思路。关于ORM的概念和介绍,我在此就不...

21780
来自专栏ChaMd5安全团队

php弱类型初级入门介绍

0x00 前言 最近DeDeCMS爆出来一个前台任意用户密码重置漏洞,由于前台resetpassword.php中对接受的safequestion参数类型比较不...

43090
来自专栏coding

Linux文本处理命令

13520
来自专栏Ryan Miao

java设计模式(四)--单例模式

 Singleton最熟悉不过了,下面学习单例模式。转载:http://zz563143188.iteye.com/blog/1847029 单例对象(Sin...

33050
来自专栏任浩强的运维生涯

mongodb高级应用

一、  高级查询 查询操作符 条件操作符:db.collection.find({“field”:{$gt/$lt/$gte/$lte/$eq/$ne:valu...

376100

扫码关注云+社区

领取腾讯云代金券