专栏首页膨胀的面包三行代码捅穿 CloudFlare 的五秒盾

三行代码捅穿 CloudFlare 的五秒盾

经常写爬虫的同学,肯定知道 CloudFlare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字:

Checking your browser before accessing xxx.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds…

即使你把 Headers 带完整,使用代理 IP,也会被它发现。我们来看一个例子。

Mountain View Whisman students sent home after children test positive for COVID-19

这篇文章,使用正常浏览器访问,效果如下图所示:

直接查看原始的网页源代码,可以看到,新闻标题和正文就在源代码里面,说明新闻的标题和正文都是后端渲染的,不是异步加载。如下图所示:

现在,我们使用 requests,带上完整的请求头来访问这个网站,效果如下图所示:

网站识别到了爬虫行为,成功把爬虫请求挡住了。很多同学在这个时候就已经束手无策了。因为这是爬虫的第一次请求就被挡住了,所以网站不是检测的 IP 或者访问频率,所以即使用代理 IP 也无济于事。而现在即使带上了完整的请求头都能被发现,那还有什么办法绕过这个检测呢?

实际上,要绕过这个 5 秒盾非常简单,只需要使用一个第三方库,叫做cloudscraper。我们可以使用 pip 来安装:

python3 -m pip install cloudscraper

安装完成以后,只需要使用 3 行代码就能绕过 CloudFlare 的 5 秒盾:

import cloudscraper
scraper = cloudscraper.create_scraper()
resp = scraper.get('目标网站').text

我们还是以上面的网站为例:

import cloudscraper
from lxml.html import fromstring

scraper = cloudscraper.create_scraper()
resp = scraper.get('https://mv-voice.com/news/2021/05/04/mountain-view-whisman-students-sent-home-after-children-test-positive-for-covid-19').text
selector = fromstring(resp)
title = selector.xpath('//h1/text()')[0]
print(title)

运行效果如下图所示:

破盾成功。

CloudScraper 非常强大,它可以突破 CloudFlare 免费版各个版本的五秒盾。而且它的接口和 requests 保持一致。原来用 requests 怎么写代码,现在只需要把requests.xxx改成scraper.xxx就可以了。

via: 一日一技:如何捅穿Cloud Flare的5秒盾 https://mp.weixin.qq.com/s/zwmatF3yTgSyS0gz8sinaA

VeNoMouS/cloudscraper: A Python module to bypass Cloudflare's anti-bot page. https://github.com/venomous/cloudscraper

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Cloudflare 页面缓存(Page Rules)优化WordPress全站缓存配置规则

    当你接入Cloudflare的CDN,并点亮小云朵之后。你的网站就已经通过Cloudflare的CDN节点进行中转了。默认情况下,Cloudflare 会对你网...

    陌涛
  • 反反爬 | 如何巧过 CloudFlare 5秒盾?

    当我们第一次访问使用 CloudFlare 加速的网站时,网站就会出现让我们等待 5 秒种的提示,当我们需要的通过爬虫爬取这类网站的时候,应该如何爬取呢?

    咸鱼学Python
  • 服务器通过安装vDDoS开源防护脚本来防御DDOS及CC攻击

    前言:在互联网发展迅速的网络时代下,现在每个人都会通过服务器在搭建网站,不管是商用也好,还是学习也好,都会受到来自互联网的非法请求。非法请求又分为很多种,今天我...

    Erwin
  • Cloudflare中firewall的编写方法

    ​ 这篇文章中说到坏男孩博客一直在使用CloudFlare提供SSL服务和防火墙服务。SSL并没有什么好说的,今天简单介绍一下我是如何写Cloudflare中的...

    yumusb
  • Windows Python3 环境中安装 PyV8

    下午在研究过 cloudflare 的5秒盾的过程中,发现需要一段 js 脚本执行代码才能得出网址中的参数值。在 python 中较为轻量的 js 解释器就是 ...

    SweetHunter
  • wordpress国内网速慢解决网站加速及防DDOS攻击快速CF切换教程

    最近,有客户说他网站在国外,但国内网站速度打开非常慢,因为国内国外用户访问都比较频繁,希望对他们的网站www.pjcourse.com国内访问速度做个提升。他们...

    仙士可
  • wordpress国内网速慢加速及防DDOS攻击快速CF切换教程

    最近,有客户说他网站在国外,但国内网站速度打开非常慢,因为国内国外用户访问都比较频繁,希望对他们的网站www.pjcourse.com国内访问速度做个提升。他们...

    丢了的小白
  • MIT机器人闭上眼睛,靠触觉也爬得上凶险的楼梯 | 施工未完成

    量子位
  • 谈谈云服务和 SLA

    云服务在宣传时往往会强调:永远在线、永远可用、永不丢失。但是我们心里都明白,现实离这个差远了。GitHub 在过去 30 天累计宕机 5 次,这已经是非常严重的...

    用户8851537
  • 六一了,来看看小朋友是如何上云

    ? 2014年,小俊的母亲购买了她的第一台智能手机。这是还在上小学二年级的小俊第一次接触到手机。 很快,小俊便迷上了手机里五花八门的手机游戏。出于对未知世界...

    腾讯云计算产品团队
  • 每周分享第 25 期

    十年前的2008年9月23日,HTC 发布了世界上第一台安卓手机 G1,3.2英寸屏幕,320x480分辨率,256MB内存, 1150mAh电池,并带有一个实...

    ruanyf
  • 同盾李晓林:解决时代的困境,知识将成为AI3.0的“第四要素”

    之前,他是学界精英,佛罗里达大学终身教授;现在,他是同盾科技人工智能研究院的院长。平时与人交谈时,他语言温和,但一旦涉及专业问题时,立即进入学者气场。

    用户8049510
  • 案例分析:闰秒带来的BUG是否影响了你?

    闰秒如何影响了IT世界?在2016年底我们写下的文章里曾经提到2017开年多出这一秒,大家是否平稳度过?欢迎大家留言讲诉你遇到的真实故事。 毫无疑问,根据墨菲...

    数据和云
  • 由大型物联网僵尸网络驱动的DDoS攻击

    基于物联网设备的僵尸网络 随着信息安全技术的不断发展,物联网僵尸网络现在也成为了信息安全领域内最为危险的安全威胁之一。近期,我们检测到了两起由这些物联网基础设施...

    FB客服
  • 史上最大规模 DDoS 攻击,每秒 1720 万次 HTTP 请求

    互联网基础设施公司 Cloudflare 表示,已化解了迄今为止所记录的最大规模的容量耗尽分布式拒绝服务(DDoS)攻击。

    AI科技大本营
  • 隐藏源IP,提高溯源难度的几种方案

    原因一:保护个人隐私是是第一出发点;科技进步飞快,网络也渗透入生活中的方方面面,近几年的隐私泄露事故时有发生,我们该如何保护个人隐私?

    FB客服
  • 一日一技:如何捅穿Cloud Flare的5秒盾

    经常写爬虫的同学,肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字:

    青南
  • 服务器升级至centos8 网站配置-php与mysql从5.6升级到php7与msyql

    linux centos8 安装php7 nginx1.4 mysql8 ,运行php网站,各个模块从零开始配置

    周陆军
  • typecho引入php五秒盾,实现自由配置

    直接开启了cc五秒盾的效果,所有未cookies验证的用户全部被拦截了,很影响用户的体验。实际上typecho是可以实现控制的,比如在模板设置里增加对cc五秒盾...

    用户7146828

扫码关注云+社区

领取腾讯云代金券