前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >三分钟学会用Java写一个简单的网络爬虫(1)

三分钟学会用Java写一个简单的网络爬虫(1)

作者头像
剽悍一小兔
发布2020-11-12 11:48:32
7200
发布2020-11-12 11:48:32
举报
文章被收录于专栏:web编程技术分享

本项目中需要用到两个第三方jar包,分别为 jsoup 和 commons-io。

jsoup的作用是为了解析网页, commons-io 是为了把数据保存到本地。

1.爬取贴吧

第一步,打开eclipse,新建一个java项目,名字就叫做 pachong:

然后,新建一个类,作为我们程序的入口。

这个作为入口类,里面就写一个main方法即可。

代码语言:javascript
复制
public class StartUp {

    public static void main(String[] args) {
        
    }
}

第二步,导入我们的依赖,两个jar包:

右键jar包,Build path , add to Build path

接着,我们试着搜索一下动漫吧的数据:

https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5

代码语言:javascript
复制
public class StartUp {

    public static void main(String[] args) {
        String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
        Connection connect = Jsoup.connect(url);
        System.out.println(connect);
    }
}

如果能够成功打印出来链接,说明我们的连接测试是成功的!

然后,我们调用connect的get方法,获取链接到的数据:

代码语言:javascript
复制
Document document = connect.get(); 

这边需要抛出一个异常,而且是强制性的,因为有可能会获取失败。这边我们直接抛出去,不去捕获。

代码语言:javascript
复制
public class StartUp {

    public static void main(String[] args) throws IOException {
        String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
        Connection connect = Jsoup.connect(url);
        System.out.println(connect);
        
        Document document = connect.get(); 
        System.out.println(document);
    }
}

打印出来的结果:

可见,document对象装的就是一个完整HTML页面。

在这里,我们想要拿到的第一个数据,就是所有帖子的标题:

我们发现,每一个标题都是一个a连接,class为j_th_tit 。

下一步我们就考虑获取所有class为 j_th_tit 的元素。

我们发现,document对象给我们提供了 getElementsByClass 的方法,顾名思义,就是获取class为 XXX 的元素。

代码语言:javascript
复制
Elements titles = document.getElementsByClass("j_th_tit");

接着,遍历titles,打印出每一个标题的名称:

代码语言:javascript
复制
for (int i = 0; i < titles.size(); i++) {
    System.out.println(titles.get(i).attr("title"));
}

当前代码:

代码语言:javascript
复制
import java.io.IOException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;


public class StartUp {

    public static void main(String[] args) throws IOException {
        String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
        Connection connect = Jsoup.connect(url);
        
        Document document = connect.get(); 
        
        Elements titles = document.getElementsByClass("j_th_tit");
        
        for (int i = 0; i < titles.size(); i++) {
            System.out.println(titles.get(i).attr("title"));
        }
        
    }
}
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.爬取贴吧
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档