专栏首页后端技术漫谈[Selenium+Chrome使用总结]加载Flash、禁用JS脚本、滚动页面至元素、缩放页面

[Selenium+Chrome使用总结]加载Flash、禁用JS脚本、滚动页面至元素、缩放页面

本文收录在爬虫开发实战专栏中

前言

前几周做了个使用Selenium的项目,踩了好多好多好多的Selenium的坑,越来越感觉他作为一个第三方库,对于Chrome的操作实在是有局限。另外,推荐大家一个Selenium之外的操作浏览器的选择:puppeteer(https://github.com/GoogleChrome/puppeteer),是来自谷歌的库。它解决了很多在Selenium里很难解决的问题,比如手机页面截全屏。

好了,收回来,Selenium很多难解决的问题,我们要首先想到从JS脚本出发,毕竟Selenium还是支持驱动浏览器运行JS脚本的。

这篇文章的内容主要是Selenium日常开发中会遇到的坑,以Java代码为主,当然Python的小伙伴不用担心,这里所有的解决方案都是可以在Python中通用的。

Selenium

主要参考

Selenium使用总结(Java版本):

https://juejin.im/post/5c13880ef265da610f639c3c

Selenium准备

chromedriver各版本镜像:

https://npm.taobao.org/mirrors/chromedriver/

chromedriver版本与chrome客户端对应支持关系:

https://npm.taobao.org/mirrors/chromedriver/2.46/notes.txt

最新版本截图:

----------ChromeDriver v2.46 (2019-02-01)----------
Supports Chrome v71-73
Resolved issue 2728: Is Element Displayed command does not work correctly with v0 shadow DOM inserts [[Pri-1]]
Resolved issue  755: /session/:sessionId/doubleclick only generates one set of mousedown/mouseup/click events [[Pri-2]]
Resolved issue 2744: Execute Script returns wrong error code when JavaScript returns a cyclic data structure [[Pri-2]]
Resolved issue 1529: OnResponse behavior can lead to port exhaustion [[Pri-2]]
Resolved issue 2736: Close Window command should handle user prompts based on session capabilities [[Pri-2]]
Resolved issue 1963: Sending keys to disabled element should throw Element Not interactable error [[Pri-2]]
Resolved issue 2679: Timeout value handling is not spec compliant [[Pri-2]]
Resolved issue 2002: Add Cookie is not spec compliant [[Pri-2]]
Resolved issue 2749: Update Switch To Frame error checks to match latest W3C spec [[Pri-3]]
Resolved issue 2716: Clearing Text Boxes [[Pri-3]]
Resolved issue 2714: ConnectException: Failed to connect to localhost/0:0:0:0:0:0:0:1:15756. Could not start driver. [[Pri-3]]
Resolved issue 2722: Execute Script does not correctly convert document.all into JSON format [[Pri-3]]
Resolved issue 2681: ChromeDriver doesn't differentiate "no such element" and "stale element reference" [[Pri-3]]

----------ChromeDriver v2.45 (2018-12-10)----------
Supports Chrome v70-72
Resolved issue 1997: New Session is not spec compliant [[Pri-1]]
Resolved issue 2685: Should Assert that the chrome version is compatible [[Pri-2]]
Resolved issue 2677: Find Element command returns wrong error code when an invalid locator is used [[Pri-2]]
Resolved issue 2676: Some ChromeDriver status codes are wrong [[Pri-2]]
Resolved issue 2665: compile error in JS inside of WebViewImpl::DispatchTouchEventsForMouseEvents [[Pri-2]]
Resolved issue 2658: Window size commands should handle user prompts [[Pri-2]]
Resolved issue 2684: ChromeDriver doesn't start Chrome correctly with options.addArguments("user-data-dir=") [[Pri-3]]
Resolved issue 2688: Status command is not spec compliant [[Pri-3]]
Resolved issue 2654: Add support for strictFileInteractability [[Pri-]]

Selenium 滚动至元素

滚动至元素参考:

https://blog.csdn.net/sinat_28734889/article/details/77933401

实现代码片段:

// 获取元素
WebElement element = webDriver.findElement(By.cssSelector(elementsCss));

// 获取元素左上坐标值
Point elementPoint = element.getLocation();
int documentScrollTop = elementPoint.getY();

// 将页面根据元素滚动至合适位置
jsExecutor.executeScript("window.scrollTo(0," + documentScrollTop + ")");

Selenium等待:显示,隐式

参考:

https://huilansame.github.io/huilansame.github.io/archivers/sleep-implicitlywait-wait

强制等待

sleep(3)  # 强制等待3秒再执行下一步

隐性等待

隐形等待是设置了一个最长等待时间,如果在规定时间内网页加载完成,则执行下一步,否则一直等到时间截止,然后执行下一步。注意这里有一个弊端,那就是程序会一直等待整个页面加载完成,也就是一般情况下你看到浏览器标签栏那个小圈不再转,才会执行下一步。

# -*- coding: utf-8 -*-
from selenium import webdriver

driver = webdriver.Firefox()
driver.implicitly_wait(30)  # 隐性等待,最长等30秒
driver.get('https://huilansame.github.io')

print driver.current_url
driver.quit()

需要特别说明的是:隐性等待对整个driver的周期都起作用,所以只要设置一次即可,我曾看到有人把隐性等待当成了sleep在用,走哪儿都来一下…

显性等待

显性等待,WebDriverWait,配合该类的until()和until_not()方法,就能够根据判断条件而进行灵活地等待了。它主要的意思就是:程序每隔xx秒看一眼,如果条件成立了,则执行下一步,否则继续等待,直到超过设置的最长时间,然后抛出TimeoutException。

# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

driver = webdriver.Firefox()
driver.implicitly_wait(10)  # 隐性等待和显性等待可以同时用,但要注意:等待的最长时间取两者之中的大者
driver.get('https://huilansame.github.io')
locator = (By.LINK_TEXT, 'CSDN')

try:
    WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located(locator))
    print driver.find_element_by_link_text('CSDN').get_attribute('href')
finally:
    driver.close()

Selenium定位元素后偏差

这是一个奇怪的问题,之所以会出现这个坐标偏差是因为windows系统下电脑设置的显示缩放比例造成的,location获取的坐标是按显示100%时得到的坐标,而截图所使用的坐标却是需要根据显示缩放比例缩放后对应的图片所确定的,因此就出现了偏差。

解决这个问题有三种方法:

1.修改电脑显示设置为100%。这是最简单的方法

2.缩放截取到的页面图片,即将截图的size缩放为宽和高都除以缩放比例后的大小;

3.修改Image.crop的参数,将参数元组的四个值都乘以缩放比例。

Selenium加载Flash

看服务报告pc端截图重构内ChromeUtil.java如何使用

问题答案里提供了很多解决思路:

https://stackoverflow.com/questions/52185371/allow-flash-content-in-chrome-69-running-via-chromedriver

网上方案:

prefs.put("profile.default_content_setting_values.plugins", 1);
prefs.put("profile.content_settings.plugin_whitelist.adobe-flash-player", 1);
prefs.put("profile.content_settings.exceptions.plugins.*,*.per_resource.adobe-flash-player", 1);

经测试Chrome65+无法使用,无效。

方法一

基本思路:通过Selenium自动访问chrome单个网页的设置页,操作元素,始终允许加载flash。

让Selenium自动选择下面的按钮

这个操作的Demo代码:

package util;

import org.openqa.selenium.*;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import org.openqa.selenium.support.ui.Select;

import java.io.File;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class ChromeUtil {

    /**
     * 格式化url进入该url设置页
     * @param url
     * @return
     */
    private static String _base_url(String url){
        if (url.isEmpty()){
            return url;
        }

        try {
            URL urls = new URL(url);
            return String.format("%s://%s",urls.getProtocol(),urls.getHost());
        }catch (Exception e){
            return url;
        }
    }

    /**
     * 元素选择
     * @param driver
     * @param element
     * @return
     */
    private static WebElement _shadow_root(WebDriver driver, WebElement element){
        return (WebElement)((JavascriptExecutor) driver).executeScript("return arguments[0].shadowRoot", element);
    }

    /**
     * 允许网页的flash运行,chrome67版本可行,75版本提示升级flash
     * @param driver
     * @param url
     */
    public static void allow_flash(WebDriver driver, String url) {
        url = _base_url(url);
        driver.get(String.format("chrome://settings/content/siteDetails?site=%s",url));
        WebElement webele_settings = _shadow_root(driver,(((ChromeDriver)driver).findElementByTagName("settings-ui")));
        WebElement webele_container = webele_settings.findElement(By.id("container"));
        WebElement webele_main = _shadow_root(driver,webele_container.findElement(By.id("main")));
        WebElement showing_subpage = _shadow_root(driver,webele_main.findElement(By.className("showing-subpage")));
        WebElement advancedPage = showing_subpage.findElement(By.id("advancedPage"));
        WebElement settings_privacy_page = _shadow_root(driver,advancedPage.findElement(By.tagName("settings-privacy-page")));
        WebElement pages = settings_privacy_page.findElement(By.id("pages"));
        WebElement settings_subpage = pages.findElement(By.tagName("settings-subpage"));
        WebElement site_details = _shadow_root(driver,settings_subpage.findElement(By.tagName("site-details")));
        WebElement plugins = _shadow_root(driver,site_details.findElement(By.id("plugins")));
        WebElement permission = plugins.findElement(By.id("permission"));
        Select sel = new Select(permission);
        sel.selectByValue("allow");
    }

    /**
     * @param args
     */
    public static void main(String[] args) {

        System.setProperty("webdriver.chrome.driver", Constants.PATH_Dict.DRIVER_PATH.getValue());
        WebDriver webDriver = null;
        try {
            // 初始化webDriver
            ChromeOptions options = new ChromeOptions();
            // options.addArguments("--headless"); // 无头模式
            // options.addArguments("--no-sandbox"); // Linux关闭沙盒模式
            // options.addArguments("--disable-gpu"); // 禁用显卡
            webDriver = new ChromeDriver(options);
            webDriver.manage().window().setSize(new Dimension(1300, 800));
            String url = "https://shanghai.fang.anjuke.com/";

            // 获取重定向后网址再打开Flash权限
            webDriver.get(url);
            allow_flash(webDriver,webDriver.getCurrentUrl());
            webDriver.get(url);
            Thread.sleep(1 * 60 * 1000);


        } catch(Exception e) {
            e.printStackTrace();
        } finally {
            if(webDriver != null) {
                webDriver.quit();
            }
        }
    }
}

方法二

在chrome设置里将所有网站加入flash白名单,但实测selenium会打开新的chrome,不读取通用设置,类似无痕窗口,有空再试试。

总结

  • 全局flash加载的设置按钮在selenium不起作用
  • 使用pref加载也没有用

禁止javascript

禁止运行javascript还是可以通过pref的:

HashMap<String, Object> chromePrefs = new HashMap<>(2);
chromePrefs.put("profile.managed_default_content_settings.javascript", 2);
options.setExperimentalOption("prefs", chromePrefs);

Selenium调整网页缩放大小

运行js

document.body.style.zoom='0.5'

关注我

我目前是一名后端开发工程师。主要关注后端开发,数据安全,网络爬虫,物联网,边缘计算等方向。

微信:yangzd1102

Github:@qqxx6661

个人博客:

  • CSDN:@Rude3Knife
  • 知乎:@Zhendong
  • 简书:@蛮三刀把刀
  • 掘金:@蛮三刀把刀

原创博客主要内容

  • Java知识点复习全手册
  • Leetcode算法题解析
  • 剑指offer算法题解析
  • SpringCloud菜鸟入门实战系列
  • SpringBoot菜鸟入门实战系列
  • Python爬虫相关技术文章
  • 后端开发相关技术文章

个人公众号:Rude3Knife

个人公众号:Rude3Knife

如果文章对你有帮助,不妨收藏起来并转发给您的朋友们~

本文分享自微信公众号 - Rude3Knife(Rude3Knife),作者:蛮三刀把刀

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [小工具]一键完整备份你的Csdn博客文章(支持Markdown,HTML,文中图片)

    一直想将自己的Csdn博客完整地备份到本地,以免一些老文章以后落得个404(打不开)的下场。

    Rude3Knife的公众号
  • Java虚拟机知识点快速复习手册(上)

    https://blog.csdn.net/o_nianchenzi_o/article/details/78629929

    Rude3Knife的公众号
  • Java容器(List、Set、Map)知识点快速复习手册(下)

    http://wiki.jikexueyuan.com/project/java-collection/hashset.html

    Rude3Knife的公众号
  • [Selenium+Chrome使用总结]加载Flash/禁用JS脚本/滚动页面至元素/缩放页面

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    后端技术漫谈
  • 速读原著-TCP/IP(端口映射器)

    包含远程过程的 R P C服务器程序使用的是临时端口,而不是知名端口。这就需要某种形式的“注册”程序来跟踪哪一个 R P C程序使用了哪一个临时端口。在 Sun...

    cwl_java
  • 「数据仓库架构」数据建模:星型模式

    数据建模是现代数据工作流中的一个关键步骤,其目的是将原始数据组织成方便、高效的形式。如果一个可用的数据集易于访问,数据分析师和科学家将发现他们的工作更加容易。更...

    首席架构师智库
  • 利用“谷歌趋势”评估新冠病毒封锁对不快乐、孤独和无聊情绪的影响(CS CY)

    COVID-19大流行导致许多政府实施封锁措施。虽然封锁可能有助于遏制病毒的传播,但有可能对人民福祉造成重大损害。这项研究借助“谷歌趋势”的数据测试分析了在欧洲...

    Elva
  • 当删库跑路成为一种习惯

    我们是谁? DBA! 为什么要跑步? 因为要跑路! 什么时候跑? 删完库! 据新华社北京8月20日电 ,北京一软件工程师徐某离职后因公司未能如期结清工资,便利...

    吴柯
  • 从投资人角度看,应用层的软件服务企业将迎来黄金期

    ? 来源:星光无限资本 ---- 本文采访到常垒资本冯博,从宏观层面解析了为什么企业软件服务这个大赛道在未来会有爆发性增长的机会,这其中又属应用层的企业增长...

    腾讯SaaS加速器
  • [测试(1)]第一个全对者发红包

    1、以某机关单位的OA(办公自动化)系统为研究对象,关于该系统的业务执行者和业务用例,以下说法最合适的是:

    用户6288414

扫码关注云+社区

领取腾讯云代金券