专栏首页未闻Code最完美方案!模拟浏览器如何正确隐藏特征

最完美方案!模拟浏览器如何正确隐藏特征

摄影:产品经理

日料拌饭

在前天的公众号文章《别去送死了。Selenium 与 Puppeteer 能被网站探测的几十个特征》中,我们提到目前网上的反检测方法几乎都是掩耳盗铃,因为模拟浏览器有几十个特征可以被检测,仅仅隐藏 webdriver 这一个值是没有任何意义的。

今天我们就来说说应该如何正确解决这个问题。我们首先给出解决方案。然后再说明这个解决方案,我是通过什么方式找到的。

解决这个问题的关键,就是一个 js 文件,叫做stealth.min.js。稍后我会说明如何生成这个文件。

我们需要设定,让 Selenium 或者 Pyppeteer 在打开任何页面之前,先运行这个 Js 文件。具体的做法和原理,大家可以参考我这两篇文章:

(最新版)如何正确移除Selenium中的 window.navigator.webdriver

(最新版)如何正确移除 Pyppeteer 中的window.navigator.webdriver

这里,我以 Selenium 为例来说明如何操作,我们编写如下代码:

import time
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36')

driver = Chrome('./chromedriver', options=chrome_options)

with open('/Users/kingname/test_pyppeteer/stealth.min.js') as f:
    js = f.read()

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": js
})
driver.get('https://bot.sannysoft.com/')
time.sleep(5)
driver.save_screenshot('walkaround.png')

# 你可以保存源代码为 html 再双击打开,查看完整结果
source = driver.page_source
with open('result.html', 'w') as f:
    f.write(source)

运行截图如下:

可以看到,虽然我使用的是无头模式,但是能够被识别的特征都被成功隐藏。大家还可以双击打开保存下来的 html 文件,看看是不是结果跟普通浏览器几乎一样。

如果你使用的是 Pyppeteer,那么可以根据我上面文章中给出的方法,试着加载一下这个 js 文件,看看是不是也能成功隐藏特征。

那么,这个stealth.min.js文件是怎么来的呢?这就要说到puppeteer了。我们知道,Python 版本的pyppeteer已经很久没有人维护了,但是Node.js 版本的 puppeteer持续有人维护,并且在持续更新,生态也越来越好。

有开发者给 puppeteer 写了一套插件,叫做puppeteer-extra。其中,就有一个插件叫做puppeteer-extra-plugin-stealth[1]。这个东西,就来专门用来让 puppeteer 隐藏模拟浏览器的指纹特征。

这个东西是专门给 puppeteer 用的。所以,如果你使用的是 puppeteer,那么你可以根据它的 Readme说明,直接使用。

那么,我们用 Python 的人怎么办呢?实际上也有办法。就是把其中的隐藏特征的脚本提取出来,做成一个单独的 js 文件。然后让 Selenium 或者 Pyppeteer 在打开任意网页之前,先运行一下这个 js 文件里面的内容。

puppeteer-extra-plugin-stealth的作者还写了另外一个工具,叫做extract-stealth-evasions[2]。这个东西就是用来生成stealth.min.js文件的。

如果你在国外,并且网速足够快的话。那么你根据它的 Readme,首先安装 Node.js,然后安装 Npm,接着运行如下命令:

npx extract-stealth-evasions

就会在你执行命令的文件夹下面生成一个stealth.min.js文件。然后你就可以正常使用了。

如果你在国内,那么执行这个命令的过程中,会有一个下载 Chromium 的过程,速度非常慢,虽然只有130MB,但是可能会下载好几个小时。

此时,你需要把它的package.jsonindex.js两个文件保存到本地。然后打开package.json文件,修改其中的dependencies这一项,把里面的puppeteer改成puppeteer-core,如下图所示:

然后修改index.js,给.launch()函数增加一个参数executablePath,指向你电脑上的 Chrome 浏览器,如下图所示:

修改完成以后。首先执行yarn install安装依赖包。然后执行node index.js运行程序。1秒钟以后就会生成stealth.min.js了。

如果你对 Node.js 的工具链不熟悉,不知道如何使用。那么你可以关注公众号未闻 Code,回复stealth获取这个 js 文件。

参考资料

[1]

puppeteer-extra-plugin-stealth: https://github.com/berstend/puppeteer-extra/tree/master/packages/puppeteer-extra-plugin-stealth

[2]

extract-stealth-evasions: https://github.com/berstend/puppeteer-extra/tree/master/packages/extract-stealth-evasions

文章分享自微信公众号:
未闻Code

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

作者:kingname
原始发表时间:2020-11-28
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • Chome 88如何正确隐藏 webdriver?

    在文章最完美方案!模拟浏览器如何正确隐藏特征中,我们提到了使用 CDP 协议执行stealth.min.js文件,从而完美隐藏 Chrome 浏览器的各个特征。

    青南
  • (最新版)如何正确移除Selenium中的 window.navigator.webdriver

    在《一日一技:如何正确移除Selenium中window.navigator.webdriver的值》一文中,我们介绍了在当时能够正确从Selenium启动的C...

    青南
  • python爬虫总是爬不到数据,你需要解决反爬虫了

    爬虫最讨厌的就是反爬虫,但是如果没有反爬虫的存在的,那么大家都可以随随便便就进行网络爬虫,那么服务器又怎么支撑得起来呢?那么又怎么彰显我们的能力呢?

    全栈程序员站长
  • Selenium 最强反反爬方案来了!(下篇)

    上一篇文章中,我们提到了使用 CDP 协议执行stealth.min.js文件,它能完美隐藏 Chrome 浏览器的各个特征

    AirPython
  • 【译】Web中的图像技术总结,前端开发中各种图片引入的优点缺点及实例

    前端开发人员在构建网站时需要做出的决定之一就是添加图片的技术。它可以是HTML <img>,也可以是通过CSS背景生成的图片,也可以是SVG <image>。选...

    张张
  • 【Web技术】610- Web上的图片技巧

    前端开发者在构建网站时需要做的一个决定是添加图片的技术。它可以是一个HTML <img>,或者是通过CSS背景生成的图片,也可能是SVG <image>。选择正...

    pingan8787
  • 前端运用图片的技巧总结

    原文 | https://ishadeed.com/article/image-techniques/

    前端老道
  • 一周一技 | 不注入JS怎么防止Pyppeteer被反爬?

    在我以前的一篇文章:一日一技:如何正确移除Selenium中window.navigator.webdriver的值,我讲到了如何在Selenium启动的Chr...

    咸鱼学Python
  • 在Pyppeteer中正确隐藏window.navigator.webdriver

    (文末福利)在我以前的一篇文章:一日一技:如何正确移除Selenium中window.navigator.webdriver的值,我讲到了如何在Selenium...

    青南
  • 斯坦福大学新研究:声波、光波等都是RNN

    论文地址:https://advances.sciencemag.org/content/5/12/eaay6946

    机器之心
  • 恶意机器人检测第2部分:Curiefense是如何做到的

    Curiefense从多个角度对机器人进行管理,并使用一系列过滤器来阻止恶意机器人。它们是:

    CNCF
  • 用神经网络对页面登录进行多参数优化的小妙招

    我很乐意分享我用神经网络对页面登录进行多参数优化的一些实验。我想到这个点子已经有半年了,而且我发现从自动操作这个角度来看它十分有趣。A/B 测试会消耗市场专家...

    AI研习社
  • 前端翻译:Activating Browser Modes with Doctype

    一、前言                           由于本人英语能力有限,译本内容难免有误,望各位指正!   本译文不含附录部分,请知悉。 二、译文内...

    ^_^肥仔John
  • 【数据科学】数据科学经验谈:这三点你在书里找不到

    什么样的处理才算是正确的处理呢?为了目的不择手段?只要得到好的预测性能就万事大吉?事实确实如此,但是这么做的关键在于,你能确保未知数据也能有个不错的表现。就像我...

    陆勤_数据人网
  • (新)关于修改window.navigator.webdriver代码失效问题

    ②关于chrome版本迭代后,代码失效问题解决方案的文章链接 《关于修改window.navigator.webdriver代码失效问题》

    诡途
  • 机器学习到底能替人干哪些工作?《科学》列出了8条评估标准

    唐旭 编译整理 量子位 出品 | 公众号 QbitAI ? 对于AI会取代哪些人类工作的猜测,也许可以暂时停一停了。 最近,两位来自MIT和CMU的研究者在一篇...

    量子位
  • 教你如何搭建一个超完美的服务端渲染开发环境

     Github源码地址: https://github.com/chikara-chan/react-isomorphic-boilerplate 目录 前言...

    用户1097444
  • 发现新的勒索软件:白兔及其规避策略

    我们发现新的 勒索软件 家族 White Rabbit 通过在 2021 年 12 月对美国当地一家银行进行攻击而名声大噪。这个新来者 借鉴了更成熟的勒索软件家...

    Khan安全团队
  • AI产品经理的入门必修课——案例篇(1)

    前面介绍了「AI产品经理需要具备的能力和对数据、算法需要理解的程度」、「机器学习的实际训练过程」,后面将围绕AI产品在当前环境下的热门应用来进行探讨,涵盖了语音...

    数据森麟

扫码关注腾讯云开发者

领取腾讯云代金券