文章/答案/技术大牛

发布

社区首页 >问答首页 >在Python中使用混合UTF-8编码解码响应

问在Python中使用混合UTF-8编码解码响应
EN

Stack Overflow用户

提问于 2020-04-26 17:39:31

回答 1查看 178关注 0票数 2

我正在使用aiohttp从一个网站下载数据，我得到了一个bytes对象作为响应，但我很难解码它。这是我得到的回复的一个例子

b'\\r\\nLocalit\xc3\xa0' # Località
b'\\u003cdiv\\u003e12/09/2019\\u003c/div\\u003e\\r\\n' # <div>12/09/2019</div>

据我所知，它有用于文本的普通unicode和用于html标签和换行符的转义unicode。如果我尝试使用"str(content，"utf-8")“解码它，我仍然拥有这种格式的html标记

\u003cdiv \u003e12/09/2019\u003c/div\u003e\r\n

我应该只为每个标签做一个手动的.replace("\u003", "<")，还是有一个更好的解决方案？

web-scraping

unicode

utf-8

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-26 17:53:15

您可以使用'unicode-escape' codec来转换unicode部分，然后透明地重新编码为字节(拉丁文-1对此很方便，因为它提供了字节和字符之间的一对一对应)，然后解码为'utf-8'：

b = b'\\u003cdiv\\u003e12/09/2019\\u003c/div\\u003e\\r\\n\\r\\nLocalit\xc3\xa0'
b.decode('unicode-escape').encode('latin1').decode('utf8')
# '<div>12/09/2019</div>\r\n\r\nLocalità'

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61438627

复制

相似问题

问在Python中使用混合UTF-8编码解码响应
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Python中使用混合UTF-8编码解码响应EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Python中使用混合UTF-8编码解码响应
EN