Java(9):浅谈WebCollector的数据抓取

平凡的学生族

发布于 2019-05-25 09:33:04

1.4K0

发布于 2019-05-25 09:33:04

文章被收录于专栏：后端技术

前言

作为Java世界中小白的我(瑟瑟发抖的状态),在网络数据抓取这一块简直是一无所知.天无绝人之路,这时候我们老大向我推荐一个很好用的爬虫框架WebCollector,WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架，它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。WebCollector用起来个人赶脚还是非常的简单轻便的,这里就以一个初学者的身份简单分享一下WebCollector.

WebCollector的特点

如果我们使用一个框架,那么我们最需要明白它的优势和缺点,这样我们才能更好的发挥它的作用.由于我对网络数据爬取这一块现在只了解到WebCollector框架,所以我就从网上找了一些关于WebCollector的资料,然后整理一下.

WebCollector与传统网络爬虫的区别

传统的网络爬虫倾向于整站下载，目的是将网站内容原样下载到本地，数据的最小单元是单个网页或文件。而WebCollector可以通过设置爬取策略进行定向采集，并可以抽取网页中的结构化信息。

WebCollector与HttpClient、Jsoup的区别

WebCollector是爬虫框架，HttpClient是Http请求组件，Jsoup是网页解析器（内置了Http请求功能）。一些程序员在单线程中通过迭代或递归的方法调用HttpClient和Jsoup进行数据采集，这样虽然也可以完成任务，但存在两个较大的问题：

单线程速度慢，多线程爬虫的速度远超单线程爬虫。
需要自己编写任务维护机制。这套机制里面包括了URL去重、断点爬取（即异常中断处理）等功能。

WebCollector框架自带了多线程和URL维护，用户在编写爬虫时无需考虑线程池、URL去重和断点爬取的问题。

WebCollector能够处理的量级

WebCollector目前有单机版和Hadoop版（WebCollector-Hadoop），单机版能够处理千万级别的URL，对于大部分的精数据采集任务，这已经足够了。WebCollector-Hadoop能够处理的量级高于单机版，具体数量取决于集群的规模。

WebCollector的遍历

WebCollector采用一种粗略的广度遍历，但这里的遍历与网站的拓扑树结构没有任何关系，用户不需要在意遍历的方式。PS:这一点作为小白的我是深有体会...? ? ? 网络爬虫会在访问页面时，从页面中探索新的URL，继续爬取。WebCollector为探索新URL提供了两种机制，自动解析和手动解析。两种机制的具体内容请读后面实例中的代码注释。

WebCollector的简单使用

上面说了一堆WebCollector框架的特点,下面我们就简单的看一下WebCollector在实际过程中是如何使用的呢?

1.首先我们可以直接把WebCollector的jar包导入工程,或者在pom文件中配置Maven依赖关系.如下所示

方式1:点击下载WebCollector的jar包

方式2:配置Maven依赖关系,如下所示

<dependency>
    <groupId>cn.edu.hfut.dmic.webcollector</groupId>
    <artifactId>WebCollector</artifactId>
    <version>2.70</version>
</dependency>

2. 创建一个实体类继承于BreadthCrawler类,重写BreadthCrawler构造器方法.在构造器方法中设置基本爬虫类属性.比如设置种子集合、设置URL正则约束、设置是否断点爬取、设置线程数等等.(代码在最下面.)

3.搞好构造器方法之后,我们最需要的就是实现接口Visitor中的方法`public void visit(Page page, CrawlDatums next)`.在visit这个方法中我们抓取我们所需要的数据信息.

下面我们就拿一个具体的示例来说明WebCollector的抓取过程是如何实现的.我们就要抓取出下面页面中我的名字"神经骚栋".

我们先创建好类以及构造器和visit方法.如下所示.

package com.infosports.yuqingmanagement.crawler.impl;

import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;
import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;
import cn.edu.hfut.dmic.webcollector.util.RegexRule;

public class SaoDongCrawler extends BreadthCrawler {

    private final static String crawlPath = "/Users/luying/data/db/jianshu";

    private final static String seed = "http://www.jianshu.com/u/e39da354ce50";
    
    RegexRule regexRule = new RegexRule();

    public SaoDongCrawler() {
        super(crawlPath, false);
        
        //添加爬取种子,也就是需要爬取的网站地址,以及爬取深度
        CrawlDatum datum = new CrawlDatum(seed)  
                    .meta("depth", "1");  
        addSeed(datum);
        
        //设置线程数,根据自己的需求来搞
        setThreads(2);
        
        //添加正则表达式规则
        regexRule.addRule("http://.*");
    }
    
    @Override
    public void visit(Page page, CrawlDatums next) {
        
    } 
    
    public static void main(String[] args) throws Exception {
        
        //测试
        SaoDongCrawler crawler = new SaoDongCrawler();
        crawler.start(2);
    }
}

然后我们打开网页的开发者工具去查找我们所需爬取数据的元素以及class.如下所示

我们通过开发者工具找到了我们所需要的元素,所以我们可以在visit方法里面如下获取"神经骚栋"四个字.

    @Override
    public void visit(Page page, CrawlDatums next) {
        
        String name = page.select("a.name").text();
        System.out.println(name);
    }

或者我们不想获取标签的值,只想获取标签该如何呢?然后再通过标签来获取标签的值.

    @Override
    public void visit(Page page, CrawlDatums next) {
        Element nameElement = page.select("a.name").first();
        String name = nameElement.text();
        System.out.println(name);
    }

又或者由于某个class的标签过多,我们需要通过上一级标签来获取标签该如何办呢?我们需要使用 > 来进行操作.具体示例就拿这个"name"标签为示例.

    @Override
    public void visit(Page page, CrawlDatums next) {
        Element nameElement = page.select("div.title>a.name").first();
        String name = nameElement.text();
        System.out.println(name);
    }

爬取结果如下所示.