爬虫实战13获取自己的动态代理ip池

文章来源：企鹅号 - 一步一步学Python

在爬取一些比较友好的网站时，仍然有可能因为单位时间内访问次数过多，使服务器认定为机器访问，导致访问失败或者被封。如果我们使用不同的ip来访问网站的话，就可以绕过服务器的重复验证，使服务器以为使不同的人在访问，就不会被封了。

如何获取动态ip

我们获取这个页面上的所有ip即可。

一个合理的代理ip的格式是这样的：

也就是说每个代理是一个字典，这个字典中可以有很多个ip，每个代理ip都是以http为key。当然考虑到字典的特性，如果我们只获取http为key的代理，那么这个字典中只能有一个元素。

我们就简单点，只考虑http的情况。

通过PyQuery来解析西刺的源代码，所有的ip都在一个tr里面，但是有些tr是标题，我们过滤一下就可以了。

由于页面比较简单，这里就不做介绍了。

如何使用代理ip

我们以requests库为例：

全部代码

西刺也是有访问限制的，短时间内多次访问会被封锁，所以最好的办法是每个一个小时访问一下，将所有的代理ip保存到本地。

每次需要ip的时候从本地获取。

在下面的例子中，我们先获取到一个ip池，当然是文本格式的，然后短时间内访问了200次豆瓣主页，都成功了。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货