（新）关于修改window.navigator.webdriver代码失效问题

诡途

发布于 2020-10-16 10:08:20

1.8K0

发布于 2020-10-16 10:08:20

文章被收录于专栏：诡途的python路

《前文回顾》

前面写过两篇关于sycm自动化爬取的文章

①关于抓取代码的文章链接

《出师未捷身先死的sycm数据自动化》

②关于chrome版本迭代后，代码失效问题解决方案的文章链接

《关于修改window.navigator.webdriver代码失效问题》

《溯源追根》

问题前文已经说过，这里再明确下：

修改window.navigator.webdriver值的chrom启动配置代码

chrome_options.add_experimental_option('excludeSwitches',['enable-automation'])

在79（含79）以后的版本失效，

前面说的个人猜测chrome后续版本把这个配置都给屏蔽掉了

经过最近时间的研究发现确实如此

’谷歌修复了非无头模式下排除“启用自动化”时window.navigator.webdriver是未定义的问题

《解决方案》

上次给过一个退chrome版本的方案，详见前文

《关于修改window.navigator.webdriver代码失效问题》

方法简单粗暴，但是最近公司不让用自己电脑了，公司电脑各种权限，需要it的同事本身不太喜欢麻烦别人，而且退版本也比较麻烦，

所以试图寻找新的解决办法

前面有朋友在评论给出js方法避过验证，通过执行如下 JavaScript 语句来隐藏window.navigator.webdriver的值：

Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })

我前面试了下，继续操作点击链接、输入网址进入另一个页面，或者开启新的窗口，window.navigator.webdriver又变成了true

是因为在网页已经加载完毕以后才运行这段 JavaScript 代码的，可此时网站自身的 js 程序早就已经通过读取window.navigator.webdriver知道你现在使用模拟浏览器，隐藏了没什么用

所以考虑在在浏览器运行网站自带的所有 JavaScript 之前，去执行这段 JavaScript 语句，这也就是今天的新解决方案。

可以通过写 Chrome 浏览器的插件，在网站刚打开还未运行自带的 JavaScript 之前运行插件里面的 JavaScript 语句（这种方式虽然可以解决问题，但有点儿麻烦，而且重要的是本人不会写插件）

换个简单点儿的方法，使用 Google 的Chrome Devtools-Protocol（Chrome 开发工具协议）简称CDP。

我们打开 CDP 的官方文档，可以看到如下的命令：

在每个Frame 刚刚打开，还没有运行 Frame 的脚本前，运行给定的脚本。

通过这个命令，给定一段 JavaScript 代码，让 Chrome 刚刚打开每一个页面，还没有运行网站自带的 JavaScript 代码时，先执行给定的这段代码。

’如何在 Selenium 中调用 CDP 的命令？

使用driver.execute_cdp_cmd。根据 Selenium 的官方文档，传入需要调用的 CDP 命令和参数即可：

代码修正：

from selenium.webdriver import Chrome

driver = Chrome('./chromedriver')
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})
driver.get('http://exercise.kingname.info')

运行效果如下图所示：

完美隐藏window.navigator.webdriver。并且，关键语句：

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})

只需要执行一次，之后只要你不关闭这个driver开启的窗口，无论你打开多少个网址，他都会自动提前在网站自带的所有 js 之前执行这个语句，隐藏window.navigator.webdriver。

‘值得注意的是：

 #修改windows.navigator.webdriver，防机器人识别机制，selenium自动登陆判别机制
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])

原先的这句代码可以带着，如果去掉，也可以正常验证和操作，但是浏览器地址栏会出现自动控制标志，如下图,加上原先这句代码就不会出现这个提示框

《新登陆代码》

#手动登录
def login(extension_path,tmp_path):
    chrome_options = webdriver.ChromeOptions()
    # 设置好应用扩展
    chrome_options.add_extension(extension_path)
    
     #添加下载路径
    prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory':tmp_path,
             "profile.default_content_setting_values.automatic_downloads":1}#允许多个文件下载
    chrome_options.add_experimental_option('prefs', prefs)

    #修改windows.navigator.webdriver，防机器人识别机制，selenium自动登陆判别机制
	chrome_options.add_experimental_option('excludeSwitches', ['enable-automation']) 
	drive = webdriver.Chrome(chrome_options=chrome_options)
 	#CDP执行JavaScript 代码  重定义windows.navigator.webdriver的值
 	drive.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
      "source": """
        Object.defineProperty(navigator, 'webdriver', {
          get: () => undefined
        })
      """
    })
    url = 'https://sycm.taobao.com/portal/home.htm'
    drive.implicitly_wait(10)
    drive.get(url)
    input("请手动登录，成功后输入【1】：")
    #叉掉页面无关元素后再输入1继续执行
    drive.maximize_window() #窗口最大化
    tm=random.uniform(1,2)
    time.sleep(tm)
    return drive