专栏首页测试人生你试过使用selenium爬虫抓取数据吗

你试过使用selenium爬虫抓取数据吗

关注测试局| 会上瘾

写在前面

本来这篇文章该几个月前写的,后来忙着忙着就给忘记了。

ps:事多有时候反倒会耽误事。

几个月前,记得群里一朋友说想用selenium去爬数据,关于爬数据,一般是模拟访问某些固定网站,将自己关注的信息进行爬取,然后再将爬出的数据进行处理。

他的需求是将文章直接导入到富文本编辑器去发布,其实这也是爬虫中的一种。

其实这也并不难,就是UI自动化的过程,下面让我们开始吧。

准备工具/原料

1、java语言

2、IDEA开发工具

3、jdk1.8

4、selenium-server-standalone(3.0以上版本)

步骤

1、分解需求:

需求重点主要是要保证原文格式样式都保留:

  • 将要爬取文章,全选并复制
  • 将复制后的文本,粘贴到富文本编辑器中即可

2、代码实现思路:

  • 键盘事件模拟CTRL+A全选
  • 键盘事件模拟CTRL+C复制
  • 键盘事件模拟CTRL+V粘贴

3、实例代码

import org.junit.AfterClass;

import org.junit.BeforeClass;

import org.junit.Test;

import org.openqa.selenium.By;

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.chrome.ChromeDriver;

import java.awt.*;

import java.awt.event.KeyEvent;

import java.util.concurrent.TimeUnit;

/**

 * @author rongrong

 * Selenium模拟访问网站爬虫操作代码示例

 */

public class Demo {

    private static WebDriver driver;

    static final int MAX_TIMEOUT_IN_SECONDS = 5;

    @BeforeClass

    public static void setUpBeforeClass() throws Exception {

        driver = new ChromeDriver();

        String url = "https://temai.snssdk.com/article/feed/index?id=6675245569071383053&subscribe=5501679303&source_type=28&content_type=1&create_user_id=34013&adid=__AID__&tt_group_id=6675245569071383053";

        driver.manage().window().maximize();

        driver.manage().timeouts().implicitlyWait(MAX_TIMEOUT_IN_SECONDS, TimeUnit.SECONDS);

        driver.get(url);

    }

    @AfterClass

    public static void tearDownAfterClass() throws Exception {

        if (driver != null) {

            System.out.println("运行结束!");

            driver.quit();

        }

    }

    @Test

    public void test() throws InterruptedException {

        Robot robot = null;

        try {

            robot = new Robot();

        } catch (AWTException e1) {

            e1.printStackTrace();

        }

        robot.keyPress(KeyEvent.VK_CONTROL);

        robot.keyPress(KeyEvent.VK_A);

        robot.keyRelease(KeyEvent.VK_A);

        Thread.sleep(2000);

        robot.keyPress(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_CONTROL);

        driver.get("https://ueditor.baidu.com/website/onlinedemo.html");

        Thread.sleep(2000);

        driver.switchTo().frame(0);

        driver.findElement(By.tagName("body")).click();

        robot.keyPress(KeyEvent.VK_CONTROL);

        robot.keyPress(KeyEvent.VK_V);

        robot.keyRelease(KeyEvent.VK_V);

        robot.keyRelease(KeyEvent.VK_CONTROL);

        Thread.sleep(2000);

    }

}

写在后面

小编并不是特别建议使用selenium做爬虫,原因如下:

  • 速度慢:

每次运行爬虫都要打开一个浏览器,初始化还需要加载图片、JS渲染等等一大堆东西;

  • 占用资源太多:

有人说,把换成无头浏览器,原理都是一样的,都是打开浏览器,而且很多网站会验证参数,如果对方看到你恶意请求访问,会办了你的请求,然后你又要考虑更换请求头的事情,事情复杂程度不知道多了多少,还得去改代码,麻烦死了。

  • 对网络的要求会更高:

加载了很多可能对您没有价值的补充文件(如css,js和图像文件)。 与真正需要的资源(使用单独的HTTP请求)相比,这可能会产生更多的流量。

精彩推荐

接口自动化落地(一:MySQL+MyBatis实现对测试用例数据的读取)

导入导出文件测试点

手把手带你入门git操作

自动化测试报告必会神器Allure使用

本文分享自微信公众号 - 软件测试君(backlight2018),作者:糖小幽

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • TestNg之XMl形式实现多线程测试

    在实际测试中,为了节省测试时间,提高测试效率,在实际测试场景中经常会采用多线程的方式去执行,比如爬虫爬数据,多浏览器并行测试。

    软件测试君
  • 接口测试平台:场景执行支持定时构建

    关于Springboot接入可动态修改的定时任务可参考《SpringBoot 动态修改定时任务频率》,下面开始讲解平台内接入的具体代码。

    软件测试君
  • Selenium+java - 借助autolt完成上传文件操作

    上传文件是每个自动化测试同学会遇到,而且可以说是面试必考的问题,标准控件我们一般用sendkeys()就能完成上传,但是我们的测试网站的上传控件一般为自己封装的...

    软件测试君
  • Docker私有镜像仓库是什么?

    镜像仓库作为Docker技术的核心组件之一,其主要作用就是负责镜像内容的存储和分发。Docker镜像仓库从使用范围来说分为“公有镜像仓库”和“私有镜像仓库”,公...

    用户5927304
  • iOS - 关于 KVC 的一些总结

    我们可以使用setter方法为currentBalance属性赋值,这是直接的,但缺乏灵活性。

    师大小海腾
  • 044.集群存储-StorageClass

    StorageClass作为对存储资源的抽象定义,对用户设置的PVC申请屏蔽后端存储的细节,一方面减少了用户对于存储资源细节的关注,另一方面减轻了管理员手工管理...

    木二
  • Java内存管理与垃圾回收

    根据《Java虚拟机规范(第2版)》的规定,Java虚拟机所管理的内存将会包括以下几个运行时数据区域,如下图所示:

    IT大飞说
  • 好用的前端页面性能检测工具—sitespeed.io

    引言 最近在做HTTP2技术相关调研,想确认一下HTTP2在什么情境下性能会比HTTP1.x有显著提升,当我把http2的本地环境(nginx+PHP)部署完成...

    用户1217459
  • Flink 1.11 新特性详解:【非对齐】Unaligned Checkpoint 优化高反压

    问题导读 1.Barrier 对齐会造成什么问题? 2.Barrier 对齐是否会造成反压? 3.如何理解Unaligned Checkpoint ? 作为...

    zhisheng
  • AI in WAF︱腾讯云网站管家 WAF:爬虫 Bot 程序管理方案

    腾讯云安全

扫码关注云+社区

领取腾讯云代金券