前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >selenium+Webdriver+jsoup爬虫策略

selenium+Webdriver+jsoup爬虫策略

作者头像
java后端指南
发布2021-09-29 14:40:01
8700
发布2021-09-29 14:40:01
举报
文章被收录于专栏:java后端java后端

Part1文章首推

Part2今日主题:selenium+Webdriver+jsoup爬虫

我们为什么要借助webdriver来爬虫呢?其实jsoup也可以直接进行爬虫的,直接这样爬,容易被拦截,你可能没有携带一些特定的请求头之类的,爬虫成本较高,我们用webdriver就可以实现真实浏览器的访问,会自己携带请求参数过去,省去了很多去分析的时间。

原理:

我们在浏览器中为什么可以看到页面上的数据,是因为服务器给了数据给浏览器,让他去渲染,我们将这部分数据拿到,然后再打开浏览器,可以真实的模拟数据。

1查看当前google版本[其他浏览器也可以]

在google浏览器输入:chrome://settings/help

下载 chromedriver.exe

下载地址:http://npm.taobao.org/mirrors/chromedriver,因为我的google版本是80,所以我选择这个

notes.txt:这里写了这个驱动支持哪些版本的浏览器

下载对应系统的驱动版本

这个文件的路径可以随意放置

2依赖

代码语言:javascript
复制
 <!--WebDriver-->
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>4.0.0-alpha-3</version>
        </dependency>
        <!-- jsoup-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>

3测试代码

代码语言:javascript
复制
ChromeOptions options = new ChromeOptions();
        options.setBinary("D:/谷歌浏览器/Google/Chrome/Application/chrome.exe");
        //通过配置参数禁止data;的出现,不会弹出浏览器,默认是后台静默运行
        options.addArguments("--headless","--disable-gpu");
        //注意 第二个参数 改为你第二步下载 chromedriver.exe 所放在的路径
        System.setProperty("webdriver.chrome.driver", "D:/chromedriver/chromedriver.exe");
        //创建浏览器窗口
        WebDriver driver = new ChromeDriver(options);

        driver.get("https://www.baidu.com");
        //延迟5秒,动态网站数据填充比较慢,需要延迟才可以拿到数据
        Thread.sleep(5000);
        //拿到页面的数据
        String html=driver.getPageSource();
        System.out.println("The testing page title is: " + driver.getTitle());
        //将字符串变成document对象来获取某个节点的数据
        Document document= Jsoup.parse(html);
        System.out.println(document);
        //关闭浏览器窗口
        driver.quit();

欢迎关注:java后端指南

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 java后端指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Part1文章首推
  • Part2今日主题:selenium+Webdriver+jsoup爬虫
    • 1查看当前google版本[其他浏览器也可以]
      • 2依赖
        • 3测试代码
        相关产品与服务
        验证码
        腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档