我正在使用aiohttp从一个网站下载数据,我得到了一个bytes对象作为响应,但我很难解码它。这是我得到的回复的一个例子
b'\\r\\nLocalit\xc3\xa0' # Località
b'\\u003cdiv\\u003e12/09/2019\\u003c/div\\u003e\\r\\n' # <div>12/09/2019</div>
据我所知,它有用于文本的普通unicode和用于html标签和换行符的转义unicode。如果我尝试使用"str(content,"utf-8")“解码它,我仍然拥有这种格式的html标记
\u003cdiv \u003e12/09/2019\u003c/div\u003e\r\n
我应该只为每个标签做一个手动的.replace("\u003", "<")
,还是有一个更好的解决方案?
发布于 2020-04-26 17:53:15
您可以使用'unicode-escape'
codec来转换unicode部分,然后透明地重新编码为字节(拉丁文-1对此很方便,因为它提供了字节和字符之间的一对一对应),然后解码为'utf-8':
b = b'\\u003cdiv\\u003e12/09/2019\\u003c/div\\u003e\\r\\n\\r\\nLocalit\xc3\xa0'
b.decode('unicode-escape').encode('latin1').decode('utf8')
# '<div>12/09/2019</div>\r\n\r\nLocalità'
https://stackoverflow.com/questions/61438627
复制相似问题