前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫框架Webmagic

爬虫框架Webmagic

作者头像
名字是乱打的
发布2022-05-13 10:15:52
7890
发布2022-05-13 10:15:52
举报
文章被收录于专栏:软件工程
一 Webmagic架构解析

WebMagic的设计目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。

WebMagic的结构分为四大组件,并由Spider将它们彼此组织起来。 Downloader                 下载 PageProcessor            处理 Scheduler                    管理 Pipeline                       持久化

这四大组件对应爬虫生命周期中的下载、处理、管 理和持久化等功能。 而Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic逻辑的核心。

二 WebMagic四大组件详细介绍
  • Downloader Downloader负责从互联网上下载页面,以便后续处理。WebMagic默认使用了ApacheHttpClient作为下载工具
  • PageProcessor PageProcessor负责解析页面,抽取有用信息,以及发现新的链接。 WebMagic使用Jsoup作为HTML解析工具,并基于其开发了解析XPath的工具Xsoup。 在这四个组件中,PageProcessor对于每个站点每个页面都不一样,是需要使用者定制的部分
  • Scheduler Scheduler负责管理待抓取的URL,以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL,并用集合来进行去重。也支持使用Redis进行分布式管理。
  • Pipeline Pipeline负责抽取结果的处理,包括计算、持久化到文件、数据库等。 WebMagic默认提供 了“输出到控制台”和“保存到文件”两种结果处理方案。
三 Webmagic的开发

Webmagic的包

代码语言:javascript
复制
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
       </dependency>
       <dependency>
           <groupId>us.codecraft</groupId>
           <artifactId>webmagic-extension</artifactId>
           <version>0.7.3</version>
       </dependency>
Spider方法集

Spider的其他组件(Downloader、Scheduler、Pipeline)都可以通过set方法来 进行设置。

Webmagic的PageProcesso

我们做爬虫时候由于解析的内容,方式或者想得到的数据不同我们需要定义自己的PageProcesso,这需要我们编写自己的PageProcesso继承PageProcessor并实现两个方法. 解析规则process(Page page)和设置请求信息getSite()

代码语言:javascript
复制
public class MyPageProcessor implements PageProcessor {
    @Override
    public void process(Page page) {
        System.out.println(page.toString());
    }
    private Site site = Site.me()  //Site指定
            .setCharset("utf8")    //设置编码
            .setTimeOut(10000)   //设置超时时间,单位是ms毫秒
            .setRetrySleepTime(3000)  //设置重试的间隔时间
            .setSleepTime(3)      //设置重试次数
            ;

    @Override
    public Site getSite() {
        return site;
    }
}

process中的Page代表了从Downloader下载到的一个页面——可能是HTML,也可能是JSON或者 其他文本格式的内容。 Page是WebMagic抽取过程核心对象,它提供一些方法可供抽取、结果保存等。

Site用于定义请求访问的一些配置信息,例如编码、HTTP头、超时时间、重试策略等、代理等,都可以通过设置Site对象来进行配置。

Site配置

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一 Webmagic架构解析
  • 二 WebMagic四大组件详细介绍
    • 三 Webmagic的开发
    • Spider方法集
    • Webmagic的PageProcesso
    相关产品与服务
    云数据库 Redis
    腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档