Java爬虫

作为一位Java爬虫的初学者,分享一下自己的心得。 所用到的jar包 

org.codehaus.jettison.jar

jsoup-1.7.3.jar 个人认为爬虫的实现机制: 获取Docume对象—>获取节点—>输出或者持久化

获取页面的图片地址

获取Docume对象—>获取Img元素—>输出地址

 1 package com.cn.basic;
 2 
 3 import java.io.IOException;
 4 import org.jsoup.Jsoup;
 5 import org.jsoup.nodes.Document;
 6 import org.jsoup.nodes.Element;
 7 import org.jsoup.select.Elements;
 8 
 9 public class ImageDemo1 {
10 
11     public static void Get_Url(String htmlUrl, String path) {
12 
13         try {
14             Document doc = Jsoup.connect(htmlUrl).get();
15 
16             Element body = doc.body();
17             Elements elements = body.select("img");
18 
19             String src = "";
20             for (Element element : elements) {
21 
22                 src = element.attr("src");
23 
24                 System.out.println(path + src);
25 
26             }
27 
28             System.out.println("elements-size: " + elements.size());
29 
30         } catch (IOException e) {
31             e.printStackTrace();
32         }
33 
34     }
35 
36     public static void main(String[] args) {
37 
38         String url = "http://pic.netbian.com/4kkatongdongman/index_2.html";
39         String path = "http://pic.netbian.com";
40         Get_Url(url, path);
41 
42     }
43 
44 }

将图片写入本地

获取Docume对象—>获取Img元素—>将图片保存本地

  1 package com.cn.basic;
  2 
  3 import java.io.ByteArrayOutputStream;
  4 import java.io.File;
  5 import java.io.FileOutputStream;
  6 import java.io.IOException;
  7 import java.io.InputStream;
  8 import java.net.HttpURLConnection;
  9 import java.net.URL;
 10 import java.util.Date;
 11 
 12 import org.jsoup.Jsoup;
 13 import org.jsoup.nodes.Document;
 14 import org.jsoup.nodes.Element;
 15 import org.jsoup.select.Elements;
 16 
 17 public class ImageDemo2 {
 18 
 19     public static void saveImage(String htmlUrl, String path) {
 20 
 21         try {
 22             Document doc = Jsoup.connect(htmlUrl).get();
 23             Element body = doc.body();
 24             Elements elements = body.select("img");
 25             
 26             String outputFilePath="E:/pythonTest/javaPython/imgs/";
 27             String src = "";
 28 
 29             HttpURLConnection conn = null;
 30             InputStream inStream = null;
 31             byte[] data = null;
 32             String filePath = null;
 33             FileOutputStream outStream = null;
 34             
 35             Long startTime=new Date().getTime();
 36             
 37             for (Element element : elements) {
 38 
 39                 src = element.attr("src");
 40 
 41                 System.out.println(path + src);
 42                 // new一个URL对象
 43 
 44                 if (!src.contains(".jpg")) {
 45                     continue;
 46                 }
 47 
 48                 URL url = new URL(path + src);
 49                 // 打开链接
 50                 conn = (HttpURLConnection) url.openConnection();
 51                 // 设置请求方式为"GET"
 52                 conn.setRequestMethod("GET");
 53                 // 超时响应时间为5秒
 54                 conn.setConnectTimeout(5 * 1000);
 55                 // 通过输入流获取图片数据
 56                 inStream = conn.getInputStream();
 57                 // 得到图片的二进制数据,以二进制封装得到数据,具有通用性
 58                 data = readInputStream(inStream);
 59                 // new一个文件对象用来保存图片,默认保存当前工程根目录
 60                 filePath = outputFilePath + System.currentTimeMillis() + ".jpg";
 61                 // 创建输出流
 62                 outStream = new FileOutputStream(new File(filePath));
 63                 // 写入数据
 64                 outStream.write(data);
 65                 // 关闭输出流
 66                 outStream.close();
 67 
 68             }
 69             System.out.println(elements.size());
 70             System.out.println("读写速度:"+(new Date().getTime()-startTime)+"毫秒");
 71             
 72 
 73         } catch (IOException e) {
 74             e.printStackTrace();
 75         } catch (Exception e) {
 76             e.printStackTrace();
 77         }
 78 
 79     }
 80 
 81     public static byte[] readInputStream(InputStream inStream) throws Exception {
 82         ByteArrayOutputStream outStream = new ByteArrayOutputStream();
 83         // 创建一个Buffer字符串
 84         byte[] buffer = new byte[1024];
 85         // 每次读取的字符串长度,如果为-1,代表全部读取完毕
 86         int len = 0;
 87         // 使用一个输入流从buffer里把数据读取出来
 88         while ((len = inStream.read(buffer)) != -1) {
 89             // 用输出流往buffer里写入数据,中间参数代表从哪个位置开始读,len代表读取的长度
 90             outStream.write(buffer, 0, len);
 91         }
 92         // 关闭输入流
 93         inStream.close();
 94         // 把outStream里的数据写入内存
 95         return outStream.toByteArray();
 96     }
 97 
 98     public static void main(String[] args) {
 99         String url = "http://pic.netbian.com/4kkatongdongman/index_2.html";
100         String path = "http://pic.netbian.com";
101         saveImage(url, path);
102     }
103 
104 }

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏雪胖纸的玩蛇日常

第二章 基本数据结构

2048
来自专栏知无涯

JS一些表单验证常用的正则表达式收集

3308
来自专栏一名叫大蕉的程序员

来人啊给我炸了那个Java虚拟机No.46

你指尖跃动的电光,是我此生不灭的信仰,唯我超电磁炮永世长存。 瞬间爆炸,完成单杀。 深度长文,非常非常长,执行这些程序可能导致机器完全死机,请遵照指示安全开车。...

2369
来自专栏Java技术栈

架构师必须掌握的各种编码:ASCII、ISO-8859-1、GB2312...

编码在我们日常开发过程中经常有遇到,常见的编码格式有ASCII、ISO-8859-1、GB2312、GBK、GB18030、UNICODE、UTF-8、UTF-...

2967
来自专栏Java编程技术

ClassLoader解惑

一个Java程序要想运行起来,首先需要经过编译生成 .class文件,然后创建一个运行环境(jvm)来加载字节码文件到内存运行,而.class 文件是怎样被加载...

1491
来自专栏Android Note

Kotlin中run, with, let, also and apply使用方法

1102
来自专栏开发与安全

数据结构:队列的顺序存储结构(循环队列)

队列(Queue)是只允许在一端进行插入操作,而在另一端进行删除操作的线性表。是一种先进先出的线性表(FIFO)。允许插入的一端称为队尾,允许删除的一端称为队头...

2397
来自专栏编舟记

Java内部类的异常处理

最近遇到一个问题,使用Java写某个DSL标记语言X的parser(解析器)Maven插件的时候,对外暴露一个名为Callback的接口和一个待实现的方法get...

842
来自专栏Java大联盟

23种设计模式详解(五)

1423
来自专栏日常分享

Java 循环队列的实现

  队列(Queue)是限定只能在一端插入、另一端删除的线性表。允许删除的一端叫做队头(front),允许插入的一端叫做队尾(rear),没有元素的队列称为“空...

2403

扫码关注云+社区

领取腾讯云代金券