目前我保持每天一篇的自学手记,这样也能监督我自己。
之前写Python量化交易的时候其实没有写全,我还有一个ip自动获取的小工具没有写进去。现在的爬虫如果没有一个自动换ip的功能,基本都会被封。不多bb,开始还原学习过程。
————————
创建项目
scrapy startproject testIP
创建爬虫
我们爬这个网站
就能实时返回我们ip
直观看到自动换ip的结果
————————
在middlewares中定义换ip的中间件
……那个num不用管,我来测试我提取ip文件被调用几次而做的。
因为自己也不是特别懂,就大概说一下。
from_crawler定义中间件,然后返回ip,
crawler可以获取scrapy的各个组件。
然后这里他获取了setting的proxy中的数据
这里你这么写也可以 ip=None
只要有ip这个参数就好了
然后process_request
定义所有需要下载的请求需要经过的策略
这里就是设置了请求头中的proxy
大概就是这么个意思吧!
————————
在setting中加入我们定义的中间件
robotstxt_obey=false 就是不管robots文件中的规定,简单来说就是,不让我爬,我也爬。
————————
然后,写爬虫
dont_filter=true 开启支持重爬一个页面。所以我们循环爬取了五遍。如果没有这个参数就不能看出我们自动换ip的效果。
————————
测试图
可以看出我们每次访问的ip都不一样。
但是这个ip的连接速度很慢,甚至访问不了。
所以明天的目标就是,给这个ip列表测速,淘汰极慢、无用ip。
晚安世界,
晚安scrapy。
领取专属 10元无门槛券
私享最新 技术干货