前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python 3中的json.dumps,会将中文转换为unicode编码后保存

Python 3中的json.dumps,会将中文转换为unicode编码后保存

作者头像
用户7886150
修改2021-01-18 11:47:34
1.2K0
修改2021-01-18 11:47:34
举报
文章被收录于专栏:bit哲学院bit哲学院

参考链接: Python-json 7:Unicode和非ASCII字符编码为JSON

先把这次踩坑的结论放在最前面 

1. Python 3已经将unicode作为默认编码 

2. Python 3中的json在做dumps操作时,会将中文转换成unicode编码,并以16进制方式存储,再做逆向操作时,会将unicode编码转换回中文 

这就解释了,为什么json.dumps操作后,得到的字符串是\uXXXX。 

谢谢@benpaodexiaowoniu。 

在python3中,ensure_ascii=False就解决了问题 

------------------分割线以下部分纯属扯淡,没时间的现在可以关闭页面了------------------------- 

如果不知道上面两点,加之python之前对编码处理的不好名声,就会陷入一个问题深坑中。 

读到这里,如果你赶时间,就可以不用往下看了。 

爆出问题的代码如下: 

@app.route("/<desc>/<amount>") 

def addSimpleRecord(desc, amount): 

    ..... 

        file.write(json.dumps(buildJson(desc, amount))); 

    .... 

整个程序运行正常,但当我打开文件看到保存的中文数据变成了\uXXXX时,头都大了。 

经过了各种尝试,我发现网上对python3中的编码问题进行了如下归纳 

\uXXXX是unicode 16进制编码的表现形式在文件的第一行加上# -*- coding: utf-8 -*-对字符串对象进行str.decode('...').encode('...')对字符串对象进行操作:str.encode('utf-8').decode('unicode_escape')

关于第一条,print("你" == "\u4f60")得到的结果是True 

关于第二条,那是python2的故事,在python3中默认的文件编码就是utf-8。因此,在保存python 3的脚本时,请务必保存为utf-8。 

关于第三条,那也是python2的故事,在python3中,字符串默认采用unicode编码。 

关于第四条,最初我是参考  python3 把\u开头的unicode转中文,把str形态的unicode转中文 ,发现不能重现,后来当我用\\uXXXX时,就重现了这篇文章中描述的问题,因为\在python字符串中起转义作用(我居然给忘记了)。 

为什么json.dumps处理过后的中文就变成了\uXXXX呢?原因在这里py_encode_basestring_ascii 

ESCAPE_ASCII = re.compile(r'([\\"]|[^\ -~])')

HAS_UTF8 = re.compile(b'[\x80-\xff]')

ESCAPE_DCT = {

    '\\': '\\\\',

    '"': '\\"',

    '\b': '\\b',

    '\f': '\\f',

    '\n': '\\n',

    '\r': '\\r',

    '\t': '\\t',

}

def py_encode_basestring_ascii(s):

    """Return an ASCII-only JSON representation of a Python string

    """

    def replace(match):

        s = match.group(0)

        try:

            return ESCAPE_DCT[s]

        except KeyError:

            n = ord(s)

            if n < 0x10000:

                return '\\u{0:04x}'.format(n)

                #return '\\u%04x' % (n,)

            else:

                # surrogate pair

                n -= 0x10000

                s1 = 0xd800 | ((n >> 10) & 0x3ff)

                s2 = 0xdc00 | (n & 0x3ff)

                return '\\u{0:04x}\\u{1:04x}'.format(s1, s2)

    return '"' + ESCAPE_ASCII.sub(replace, s) + '"'

关键的地方就在: 

return '\\u{0:04x}'.format(n) 

其中{0:04x}表示取第一个参数,并取长度为4的16进制小写数字。 

json.dumps的参数中有一个参数ensure_ascii,其默认值为True。我想这么做的目的可能是为了跨平台的通用性。 

到此为止,python 3的编码问题总算是告一段落,如有问题,欢迎交流。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档