前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scrapy对抗Cloudflare反爬5秒盾

Scrapy对抗Cloudflare反爬5秒盾

作者头像
HomeboyC
发布2022-09-19 14:35:52
7500
发布2022-09-19 14:35:52
举报
文章被收录于专栏:宅男的天台宅男的天台

对抗 5 秒盾用到库 cloudscraper

代码语言:javascript
复制
pip install cloudscraper

以中间件的形式插到 Scrapy 爬虫中

首先在爬虫中引入库:

代码语言:javascript
复制
import cloudscraper

然后在爬虫的类中按下面的结构插入代码:

代码语言:javascript
复制
class YourSpider(scrapy.Spider):
    name = 'xxxx'
    allowed_domains = ['xxxx.xxx']
    browser = cloudscraper.create_scraper() # 这行是你需要加入的代码

然后到 middlewares.py 中加一个中间件(不要在意中间件的名字):

代码语言:javascript
复制
class FuckCloudflare:
    def process_response(self, request, response, spider):
        if response.status == 403:
            if spider.name == 'xxxx': # 这里是我个人的处理 因为一个中间件可能给多个爬虫使用 在这做一下区分
                url = request.url
                rsp = spider.browser.get(url,
                                        proxies={'http': 'http://127.0.0.1:7890', # 这里的代理主要是爬取外国网站做的处理
                                                 'https': 'http://127.0.0.1:7890'},
                                        headers={'referer': url})
                return HtmlResponse(url=url,
                                    body=rsp.text,
                                    encoding="utf-8",
                                    request=request)
        return response

再到 setting.py 中找到DOWNLOADER_MIDDLEWARES启用中间件就好了:

代码语言:javascript
复制
DOWNLOADER_MIDDLEWARES = {
   '你的爬虫名字 参照其他配置改.middlewares.FuckCloudflare': 400,
   ···
   ···
}

Back to posts

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
消息队列 TDMQ
消息队列 TDMQ (Tencent Distributed Message Queue)是腾讯基于 Apache Pulsar 自研的一个云原生消息中间件系列,其中包含兼容Pulsar、RabbitMQ、RocketMQ 等协议的消息队列子产品,得益于其底层计算与存储分离的架构,TDMQ 具备良好的弹性伸缩以及故障恢复能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档