WebMagic的设计目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。
WebMagic的结构分为四大组件,并由Spider将它们彼此组织起来。 Downloader 下载 PageProcessor 处理 Scheduler 管理 Pipeline 持久化
这四大组件对应爬虫生命周期中的下载、处理、管 理和持久化等功能。 而Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic逻辑的核心。
Webmagic的包
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.7.3</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.7.3</version>
</dependency>
Spider的其他组件(Downloader、Scheduler、Pipeline)都可以通过set方法来 进行设置。
我们做爬虫时候由于解析的内容,方式或者想得到的数据不同我们需要定义自己的PageProcesso,这需要我们编写自己的PageProcesso继承PageProcessor并实现两个方法. 解析规则process(Page page)和设置请求信息getSite()
public class MyPageProcessor implements PageProcessor {
@Override
public void process(Page page) {
System.out.println(page.toString());
}
private Site site = Site.me() //Site指定
.setCharset("utf8") //设置编码
.setTimeOut(10000) //设置超时时间,单位是ms毫秒
.setRetrySleepTime(3000) //设置重试的间隔时间
.setSleepTime(3) //设置重试次数
;
@Override
public Site getSite() {
return site;
}
}
process中的Page代表了从Downloader下载到的一个页面——可能是HTML,也可能是JSON或者 其他文本格式的内容。 Page是WebMagic抽取过程的核心对象,它提供一些方法可供抽取、结果保存等。
Site用于定义请求访问的一些配置信息,例如编码、HTTP头、超时时间、重试策略等、代理等,都可以通过设置Site对象来进行配置。
Site配置