首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫结果是乱码怎么办?带你了解乱码的原因及其解决办法

学习python爬虫的小伙伴们,肯定都会遇到过乱码的问题,并为此问题感到十分发愁,今天就带大家了解一下如何解决中文乱码问题。

大家肯定都会使用python+request库+bs4库进行简单的爬虫了,我们在开开心心的拿着爬虫得到的文本想要进一步加工分析的时候,看到乱码总是让人头疼。其实,遇到中文乱码可以考虑以下几个方面:

第一个,是否已经设置页面的编码格式。在request库中,我们发送一个请求链接,返回给我们一个response对象。当我们使用python爬虫访问的那个页面没有在头部声明编码格式的时候,这个时候我们python爬虫的结果会默认其编码格式为ISO-8859-1(虽然实际上或许并不是这个编码,但是python最后会认为是这个编码格式,一般服务器的默认编码也是ISO-8859-1。)所以,我们需要在python代码中重新设置页面的编码格式,即对response.encoding属性手动设置为UTF-8编码。

小伙伴可能很细心的设置了页面的编码格式,但是看到python爬虫结果依旧还是乱码。这个时候,可能会是python与bs4库的编码冲突问题。

第二个,使用的版本是否是python3版本。有很多小伙伴很早就使用了python,早期使用的都是python2版本,但是python2版本和bs4会存在编码冲突,因为其默认编码格式不一样。bs4库的默认编码格式是UTF-8,python2版本默认编码是ASCII编码,因此会造成中文显示乱码的问题。然而,python3的默认编码格式是UTF-8,因此,升级python版本就好了,这样还会为以后省下不少麻烦事。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200607A0CXQN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券