专栏首页自动化Selenium 系列篇(六):反反爬篇

Selenium 系列篇(六):反反爬篇

1. 反爬

有时候,我们利用 Selenium 自动化爬取某些网站时,极有可能会遭遇反爬。

实际上,我们使用默认的方式初始化 WebDriver 打开一个网站,下面这段 JS 代码永远为 true,而手动打开目标网站的话,则为:undefined

# 通过这段 JS 脚本区分是爬虫还是人工操作
window.navigator.webdriver 

稍微有一点反爬经验的工程师利用上面的差别,很容易判断访问对象是否为一个爬虫,然后对其做反爬处理,返回一堆脏数据或各种验证码。

如果要实现后面的自动化操作,首先要解决的就是这个反爬的问题。

常见的反反爬方案包含:设置参数 excludeSwitches、mitmproxy 拦截过滤、cdp 命令,下面分别来说说。

2.设置参数 excludeSwitches

Chrome79 之前可以通过配置 ChromeOptions 驱动参数,来达到反反爬的目的。

只需要将参数打开,设置 excludeSwitches 值为 enable-automation 即可。

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions

option = ChromeOptions()

# 打开参数
option.add_experimental_option('excludeSwitches', ['enable-automation'])

driver = Chrome(options=option)

driver.implicitly_wait(10)

driver.get("http://www.google.com")

这个参数是实验性参数,所以右上角会提示:请停用开发者模式运行的扩展程序,不能点击停用。

这样,设置这个参数后:

window.navigator.webdriver 的值就变成 undefined 了。

3. mitproxy 拦截

众所周知,mitproxy 可以拦截到网络请求,做其他处理,这里只需要进行 JS 代码注入即可。

# 待执行的 JS 代码,修改 window.navigator.webdriver 的值
js_exec = 'Object.defineProperties(navigator,{webdriver:{get:() => false}});'


# 重写 response,截获网络请求,js注入
def response(slef,flow: mitmproxy.http.HTTPFlow):
        if 'google' in flow.request.url:
                flow.response.text = js_exec + flow.response.text

然后启动 mitmdump

# 启动mitmproxy
mitmdump -p 8888 -s 111.py 

最后,配置 ChromeOptions 指向 mitmdump代码即可。

# 配置ChromeOptions
option.add_argument("--proxy-server=http://127.0.0.1:8888")

4. cdp 命令

cdp 全称是:Chrome Devtools-Protocol

通过 addScriptToEvaluateOnNewDocument() 方法可以在页面还未加载之前,运行一段脚本。

如此,我们只需要提前设置:

window.navigator.webdriver 的值为 undefined 即可。

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions

option = ChromeOptions()

# 打开参数
# option.add_argument("--proxy-server=http://127.0.0.1:8888")
# driver = Chrome(options=option)

driver = Chrome()
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})

driver.implicitly_wait(10)
driver.get("http://www.google.com")

5. 其他

通过上面的 3 种方法可以很好的解决 Selenium 自动化被反爬的问题。

本文分享自微信公众号 - AirPython(AirPython),作者:二三

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 最全总结 | 聊聊 Python 办公自动化之 Word(下)

    这个功能,由章节对象中的属性 different_first_page_header_footer 来控制

    AirPython
  • Django 系列篇(三):配置篇(下)

    Django 中的模板引擎在创建项目的时候可以选择,包含:Django Templats 和 Jinja2

    AirPython
  • 如何利用 Python 爬虫实现给微信群发新闻早报?(详细)

    其实,早期使用的方案,是利用爬虫获取到一些新闻网站的标题,然后做了一些简单的数据清洗,最后利用 itchat 发送到指定的社群中。

    AirPython
  • 操作系统 文件管理 文件的结构

    文件划分为三类逻辑结构:无结构的字符流式文件、定长记录文件和不定长记录文件构成的记录树。

    Debug客栈
  • Mask R-CNN官方实现“又”来了!基于PyTorch,训练速度是原来2倍

    来自官方的Mask R-CNN实现终于“又”来了!PyTorch官方Twitter今天公布了一个名为Mask R-CNN Benchmark的项目。

    量子位
  • Mask R-CNN官方实现“又”来了!基于PyTorch,训练速度是原来2倍

    来自官方的Mask R-CNN实现终于“又”来了!PyTorch官方Twitter今天公布了一个名为Mask R-CNN Benchmark的项目。

    昱良
  • 春节假期没玩够?有了它,今年最长能连放 16 天!

    对学生党和上班族来说,最痛苦的一天是哪一天?每个人对于事物的感受不同,答案自然也不同。

    知晓君
  • 26年自研,收官卫星提前半年成功发射!北斗导航系统完成全球网组,性能可比肩GPS

    6月23日,我国第55颗北斗卫星在西昌卫星基地成功发射,这不仅是北斗三号卫星导航系统星座部署的收官卫星,更是代表着中国北斗已经点亮世界卫星导航的天空。

    大数据文摘
  • 记一次ijkplayer的编译过程

    从视频直播到播放器,现在很多的产品都集成了视频播放的功能,而目前市面上有比较主流的有第三方框架有:

    xiangzhihong
  • 微服务治理实践:服务查询

    本文是《微服务治理实践》系列篇的第二篇文章,为大家介绍如何实现服务查询。该系列文章基于阿里云商业化产品 EDAS 的微服务实践,如果你的团队具备较强的微服务治理...

    kirito-moe

扫码关注云+社区

领取腾讯云代金券