前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python3.7中文字符编码问题

Python3.7中文字符编码问题

作者头像
小柒2012
发布2019-12-05 18:36:52
1.6K0
发布2019-12-05 18:36:52
举报
文章被收录于专栏:IT笔记

前言

最近在尝试 Python Web方面的开发尝试,框架使用的是Django,但是在读取数据库并页面展示的时候,出现了中文编码的问题。

问题

我们看下面一段代码,获取小说章节列表:

代码语言:javascript
复制
def main(request):
    sql = "SELECT id,title FROM novel LIMIT 10;"
    result = mysql.getAll(sql)
    context = {'novel_list': result}
    return render(request, 'novel_list.html',  context)

页面输出:

代码语言:javascript
复制
{% for novel in novel_list %}
    <a href="/chapter/{{novel.id}} "><li>{{ novel.title }}</li></a>
{% endfor %}

如果不加任何转换,页面上显示的中文将会是字节码。

解决

这里我们举一个稍微简单的例子,dict是数据库中查询出来的数据:

代码语言:javascript
复制
import json
dict = {'id': 1, 'title': b'\xe7\xac\xac\xe4\xb8\x80\xe7\xab\xa0 \xe7\xa7\xa6\xe7\xbe\xbd'}
dup = json.dumps(dict ,ensure_ascii=False)
print(dup)

Python2执行输出:

代码语言:javascript
复制
{"id": 1, "title": "第一章 秦羽"}

Python3执行报错:

代码语言:javascript
复制
TypeError: Object of type bytes is not JSON serializable

查询了半天,最终解决方案:

安装模块:

代码语言:javascript
复制
pip3 install numpy

最终代码:

代码语言:javascript
复制
import json
import numpy as np


class MyEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, np.ndarray):
            return obj.tolist()
        elif isinstance(obj, bytes):
            return str(obj, encoding='utf-8');
        return json.JSONEncoder.default(self, obj)

dict  = {'id': 1, 'title': b'\xe7\xac\xac\xe4\xb8\x80\xe7\xab\xa0 \xe7\xa7\xa6\xe7\xbe\xbd'}
dup = json.dumps(dict , cls=MyEncoder, ensure_ascii=False, indent=4)
print(dup)

你也可以for循环,然后单个转码:

代码语言:javascript
复制
sql = "SELECT id,title FROM novel LIMIT 10;"
result = mysql.getAll(sql)
for each in result:
    ach['title'] = each['title'].decode('utf-8')

字符串通过编码转换为字节码,字节码通过解码转换为字符串:

代码语言:javascript
复制
str--->(encode)--->bytes,bytes--->(decode)--->str

decode和encode详解

  • decode 解码,在已知字符串编码的情况下,转码为unicode ,比如 s.decode('utf-8'),结果为unicode
  • encode 编码,在已有unicode的情况下,转码为其它编码,比如 u.encode('utf-8'),结果为utf-8
Web输出

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。

Python3 中可以使用 json 模块来对 JSON 数据进行编解码,它包含了两个函数:

  • json.dumps(): 对数据进行编码。
  • json.loads(): 对数据进行解码。
代码语言:javascript
复制
def main(request):
    sql = "SELECT id,title FROM novel LIMIT 10;"
    result = mysql.getAll(sql)
    # 转Json对象
    result = json.dumps(result, cls=MyEncoder, ensure_ascii=False, indent=4)
    # 转字典类型
    result = json.loads(result)
    context = {'novel_list': result}
    return render(request, 'novel_list.html',  context)
参数详解
代码语言:javascript
复制
json.dumps(result, cls=MyEncoder, ensure_ascii=False, indent=4)
indent

根据数据格式缩进显示,读起来更加清晰,indent的数值,代表缩进的位数。

ensure_ascii

如果无任何配置,或者说使用默认配置, 输出的会是中文的ASCII字符吗,而不是真正的中文。 这是因为json.dumps 序列化时对中文默认使用的ascii编码。

代码语言:javascript
复制
{
    "id": 1,
    "title": "\u7b2c\u4e00\u7ae0 \u79e6\u7fbd"
}
cls

dict类型的数据(存在中文),在python2中是可以转化的,但是在python3中存在序列化问题:

代码语言:javascript
复制
TypeError: Object of type bytes is not JSON serializable

小结

在Web开发中,这个问题真的很讨厌,中文编码来回转换,限于目前水平,只能这么解决,后续更新更优的方案。

更新

2019年2月13日晚,无意中又浏览到这篇文章,其实最终解决了问题,是自己把自己绕了一个大坑。由于系统读取数据用的是 PooledDB 数据库连接池,我们只需要把参数 use_unicode 设置为 False 使用系统编码即可。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-11-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 问题
  • 解决
    • Web输出
      • 参数详解
      • 小结
      • 更新
      相关产品与服务
      文件存储
      文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档