java怎么爬虫呢？

java后端指南

发布于 2021-06-22 18:34:14

6090

发布于 2021-06-22 18:34:14

文章被收录于专栏：java后端java后端

Part1文章首推

Part2今日主题:java爬虫

1简介

相信爬虫大家是有听过的，听到最多的是python爬虫，但是我们也可以用java来干，直接就是开干，这里我们要用jsoup这个依赖，他是用来解析html的。

2环境

springboot

3依赖

  <!-- jsoup-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>

4实现过程

声明：本文章仅用于学习

爬取页面上所有的span标签

 //从URL加载HTML
       Document document = Jsoup.connect("https://baijiahao.baidu.com/s?id=1678670461780276039&wfr=spider&for=pc").get();


        String title = document.title();
        //获取html中的标题
        System.out.println("title :"+title);
        //获得span标签的所有文本
        String strings=document.select("span").html();
        System.out.println(strings);

2.爬取某个网页上的某个软件的下载地址

    String url="https://www.onlinedown.net/soft/"+j+".htm";
            Document document = null;
            try {
                document = Jsoup.connect(url).get();
                String title = document.title();
                Elements elements=document.select("a");
                int i=0;
                for (Element element:elements){
                    if ("电信网络下载".equals(element.html())){
                        i++;
                        if (i==2){
                            System.out.println("【"+j+"】"+title+" 的下载地址："+element.attr("href"));
                        }
                    }

                }
            } catch (Exception e) {
                System.out.println(e.getMessage());
            }

3.爬取整个网站的某个软件的下载地址

        for (int j=1;j<=200;j++){
            String url="https://www.onlinedown.net/soft/"+j+".htm";
            Document document = null;
            try {
                document = Jsoup.connect(url).get();
                String title = document.title();
                Elements elements=document.select("a");
                int i=0;
                for (Element element:elements){
                    if ("电信网络下载".equals(element.html())){
                        i++;
                        if (i==2){
                            System.out.println("【"+j+"】"+title+" 的下载地址："+element.attr("href"));
                        }
                    }

                }
            } catch (Exception e) {
                System.out.println(e.getMessage());
            }


        }

如果有不懂的，可以看一下我的B站视频：https://www.bilibili.com/video/BV1b64y1y72F/

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2021-05-23，如有侵权请联系 cloudcommunity@tencent.com 删除

爬虫

java

本文分享自 java后端指南微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

爬虫

java

登录后参与评论

0 条评论

热度

java怎么爬虫呢？

java怎么爬虫呢？

Part1文章首推

Part2今日主题:java爬虫

1简介

2环境

3依赖

4实现过程

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐