云立方python丨网络爬虫被其他网站限制该如何继续使用？

文章来源：企鹅号 - 阿尔法云立方

有一些网站不喜欢被爬虫程序访问，所以会检测连接对象，如果是爬虫程序，也就是非人点击访问，它就会不让你继续访问，所以为了要让程序可以正常运行，需要隐藏自己的爬虫程序的身份。此时，我们就可以通过设置UserAgent的来达到隐藏身份的目的，UserAgent的中文名为用户代理，简称UA。

UA存放于Headers中，服务器就是通过查看Headers中的UserAgent来判断是谁在访问。在python中，如果不设置UserAgent，程序将使用默认的参数，那么这个UserAgent就会有Python的字样，如果服务器检查UserAgent，那么没有设置UserAgent的Python程序将无法正常访问网站。

UserAgent已经设置好了，但是还应该考虑一个问题，程序的运行速度是很快的，如果我们利用一个爬虫程序在网站爬取东西，一个固定IP的访问频率就会很高，这不符合人为操作的标准，因为人操作不可能在几ms内，进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值，如果一个IP访问频率超过这个阈值，说明这个不是人在访问，而是一个爬虫程序。

一个很简单的解决办法就是设置延时，但是这显然不符合爬虫快速爬取信息的目的，所以另一种更好的方法就是使用IP代理。

使用代理的步骤：

(1)调用urlib.request.ProxyHandler()，proxies参数为一个字典。

(2)创建Opener(类似于urlopen，)

(3)安装Opener

使用install_opener方法之后，会将程序默认的urlopen方法替换掉。也就是说，如果使用install_opener之后，在该文件中，再次调用urlopen会使用自己创建好的opener。如果不想替换掉，只是想临时使用一下，可以使用opener.open(url)，这样就不会对程序默认的urlopen有影响。

如有对爬虫以及IP还存在其他问题，可以直接访问云立方网咨询相关人员哦。

发表于: 2020-10-212020-10-21 18:20:09
原文链接：https://kuaibao.qq.com/s/20201021A0ECKA00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

云立方python丨网络爬虫被其他网站限制该如何继续使用？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐