Python爬虫结果是乱码怎么办？带你了解乱码的原因及其解决办法

文章来源：企鹅号 - beauty记录

学习python爬虫的小伙伴们，肯定都会遇到过乱码的问题，并为此问题感到十分发愁，今天就带大家了解一下如何解决中文乱码问题。

大家肯定都会使用python+request库+bs4库进行简单的爬虫了，我们在开开心心的拿着爬虫得到的文本想要进一步加工分析的时候，看到乱码总是让人头疼。其实，遇到中文乱码可以考虑以下几个方面：

第一个，是否已经设置页面的编码格式。在request库中，我们发送一个请求链接，返回给我们一个response对象。当我们使用python爬虫访问的那个页面没有在头部声明编码格式的时候，这个时候我们python爬虫的结果会默认其编码格式为ISO-8859-1（虽然实际上或许并不是这个编码，但是python最后会认为是这个编码格式，一般服务器的默认编码也是ISO-8859-1。）所以，我们需要在python代码中重新设置页面的编码格式，即对response.encoding属性手动设置为UTF-8编码。

小伙伴可能很细心的设置了页面的编码格式，但是看到python爬虫结果依旧还是乱码。这个时候，可能会是python与bs4库的编码冲突问题。

第二个，使用的版本是否是python3版本。有很多小伙伴很早就使用了python，早期使用的都是python2版本，但是python2版本和bs4会存在编码冲突，因为其默认编码格式不一样。bs4库的默认编码格式是UTF-8，python2版本默认编码是ASCII编码，因此会造成中文显示乱码的问题。然而，python3的默认编码格式是UTF-8，因此，升级python版本就好了，这样还会为以后省下不少麻烦事。

发表于: 2020-06-072020-06-07 17:45:00
原文链接：https://kuaibao.qq.com/s/20200607A0CXQN00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python爬虫结果是乱码怎么办？带你了解乱码的原因及其解决办法

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐