前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Java爬取网站的所有图片链接

Java爬取网站的所有图片链接

作者头像
程序员云帆哥
发布2022-05-12 11:01:24
1.1K0
发布2022-05-12 11:01:24
举报
文章被收录于专栏:程序员云帆哥

文章目录

一、准备

  jsoup是一个用于处理真实世界 HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API,用于获取 URL 以及提取和操作数据。

  jsoup实现了WHATWG HTML5规范,并将 HTML 解析为与现代浏览器相同的 DOM。

  • 从 URL、文件或字符串中抓取和解析HTML;
  • 使用 DOM 遍历或 CSS 选择器查找和提取数据;
  • 操作HTML 元素、属性和文本;
  • 根据安全列表清理用户提交的内容,以防止 XSS 攻击;
  • 输出整洁的 HTML。

二、引入依赖

代码语言:javascript
复制
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>${latest.version}</version>
</dependency>

三、源代码

代码语言:javascript
复制
public class JsoupTest {
    public static void main(String[] args) throws IOException {
    	// 网址
        String url = "https://www.***.com/";
        Document doc = Jsoup.connect(url)
                .maxBodySize(Integer.MAX_VALUE)
                .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36")
                .timeout(6000)
                .get();
                
		// 获取img标签的内容,读取属性输出
        Elements imgs = doc.getElementsByTag("img");
        imgs.stream().forEach(s-> {
            System.out.println(s.attr("src"));
            System.out.println(s.attr("alt"));
        });
    }
}
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 一、准备
  • 二、引入依赖
  • 三、源代码
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档