首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python scrapy第三篇

目前我保持每天一篇的自学手记,这样也能监督我自己。

之前写Python量化交易的时候其实没有写全,我还有一个ip自动获取的小工具没有写进去。现在的爬虫如果没有一个自动换ip的功能,基本都会被封。不多bb,开始还原学习过程。

————————

创建项目

scrapy startproject testIP

创建爬虫

我们爬这个网站

就能实时返回我们ip

直观看到自动换ip的结果

————————

在middlewares中定义换ip的中间件

……那个num不用管,我来测试我提取ip文件被调用几次而做的。

因为自己也不是特别懂,就大概说一下。

from_crawler定义中间件,然后返回ip,

crawler可以获取scrapy的各个组件。

然后这里他获取了setting的proxy中的数据

这里你这么写也可以 ip=None

只要有ip这个参数就好了

然后process_request

定义所有需要下载的请求需要经过的策略

这里就是设置了请求头中的proxy

大概就是这么个意思吧!

————————

在setting中加入我们定义的中间件

robotstxt_obey=false 就是不管robots文件中的规定,简单来说就是,不让我爬,我也爬。

————————

然后,写爬虫

dont_filter=true 开启支持重爬一个页面。所以我们循环爬取了五遍。如果没有这个参数就不能看出我们自动换ip的效果。

————————

测试图

可以看出我们每次访问的ip都不一样。

但是这个ip的连接速度很慢,甚至访问不了。

所以明天的目标就是,给这个ip列表测速,淘汰极慢、无用ip。

晚安世界,

晚安scrapy。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190107G0025500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券