Python scrapy第三篇

文章来源：企鹅号 - 无斜杠不币圈

目前我保持每天一篇的自学手记，这样也能监督我自己。

之前写Python量化交易的时候其实没有写全，我还有一个ip自动获取的小工具没有写进去。现在的爬虫如果没有一个自动换ip的功能，基本都会被封。不多bb，开始还原学习过程。

————————

创建项目

scrapy startproject testIP

创建爬虫

我们爬这个网站

就能实时返回我们ip

直观看到自动换ip的结果

————————

在middlewares中定义换ip的中间件

……那个num不用管，我来测试我提取ip文件被调用几次而做的。

因为自己也不是特别懂，就大概说一下。

from_crawler定义中间件，然后返回ip，

crawler可以获取scrapy的各个组件。

然后这里他获取了setting的proxy中的数据

这里你这么写也可以 ip=None

只要有ip这个参数就好了

然后process_request

定义所有需要下载的请求需要经过的策略

这里就是设置了请求头中的proxy

大概就是这么个意思吧！

————————

在setting中加入我们定义的中间件

robotstxt_obey=false 就是不管robots文件中的规定，简单来说就是，不让我爬，我也爬。

————————

然后，写爬虫

dont_filter=true 开启支持重爬一个页面。所以我们循环爬取了五遍。如果没有这个参数就不能看出我们自动换ip的效果。

————————

测试图

可以看出我们每次访问的ip都不一样。

但是这个ip的连接速度很慢，甚至访问不了。

所以明天的目标就是，给这个ip列表测速，淘汰极慢、无用ip。

晚安世界，

晚安scrapy。

相关快讯