前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >分布式爬虫技术架构

分布式爬虫技术架构

作者头像
cloudskyme
发布2018-03-20 15:58:41
1.1K0
发布2018-03-20 15:58:41
举报
文章被收录于专栏:cloudskymecloudskyme

Spiderman

Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。

项目结构:

image
image

依赖关系如下:

image
image

webmagic

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

image
image

工程结构:

image
image

工程间的关系:

image
image

众推

用整体正在进行中,目前积中在分布式爬虫阶段。

241133427088097
241133427088097

目前设计阶段的结构为:

cdoop
cdoop

基本思想为:

WEB:界面及功能部分。

SAMPLES:示例部分。

CORE:需要调用的核心包。

RULES:规则处理部分。

PARSERS:解析部分。

PLUGIN:插件部分。

CDOOP:分布式处理部分。

ADAPTER:代理适配部分。

STORE:存储层。

目前项目的地址在:

https://github.com/zongtui/zongtui-webcrawler

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2015-03-26 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Spiderman
  • webmagic
  • 众推
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档