爬虫架构|如何设计一款类“即刻”信息订阅推送的爬虫架构(一)

scrapy架构图

一、简单介绍下即刻产品

“即刻”产品的官方定义是一款基于兴趣的极简信息推送工具。

即刻从战略层上:解决用户对于信息精准推送的需求。例如,我设置一个主题叫“有豆瓣9.0分以上的新电视剧”,那么豆瓣只有有9.0分以上的新出的连续剧,即刻就会通知我。再比如我喜欢余秋雨,我创建了一个主题叫“又有人在微博提到余秋雨了”,那么一旦有新提到“余秋雨”的新微博内容时,即刻也会通知我。

即刻使用的技术是用爬虫实现其“追踪机器人”——提醒功能,用户关注对应精准细分的主题,即可收到对应主题内容更新的提醒消息。

好,以上简单说明了我们的半竞争产品之后,后面就进入正文——如何设计一款类“即刻”信息订阅推送的爬虫架构。

二、即刻产品创建主题业务分析

先列出在这个业务中设计到的最主要的3个实体:用户、主题、内容源。

一个完整创建主题的业务流程大概分如下几步:

1)创建主题,选择想到追踪的对象——内容源

2)输入搜索的关键词,比如我填写的是“余秋雨”,在下一个步骤你还可以选择你要过滤的关键词,我这块省略了

3)再就是创建主题,如果存在有和你想要创建的相同主题,你可以去关注对应的主题即可

这就是用户创建主题的主要流程。通过这个流程我们大概知道了这里面存在几个关系:

用户可以创建主题,每个主题存在一个或多个追踪对象,每个追踪对象可以设置不同的追踪和过滤条件,用户也可以关注主题。

基于以上业务,我们画一个E-R图。

三、信息订阅推送的爬虫架构设计

有了上面的业务分析,接下来我们就可以看看我们的架构应该怎么样来设计啦。我这里先给出整体架构图。

分发集群、爬虫集群、装饰集群

3.1 分发集群

分发集群有两个任务:

1. 接收后台请求,新增内容源,首先判断内容源是否已存在(通过查询“内容源”表)。若不存在,则将内容源作为爬虫任务放置到定时任务池,并主动提交到爬虫队列。

2. 定时从任务池中获取全部任务,按类型、按级别(现只定义快慢两级)提交到对应爬虫队列。

注:爬虫队列分级是为了更好的消费任务。 快队列指的是拥有更多的消费者,能更快的完成任务,一般用于处理新任务。 慢队列值得是拥有较少的消费者,完成任务的时间慢,一般用于处理异常任务。

3.2 爬虫集群

爬虫集群也有两个任务:

1. 消费队列中的爬虫任务,抓取如title、desc、url等信息存放入数据库。此时,记录应如实对应内容源的内容,不应进行过滤,封装。

2. 完成一次爬虫任务后,提交到装饰任务队列——提供内容源的一次抓取结果(此处应为多条记录),希望将结果按照每个用户的要求过滤和封装。

3.3 装饰集群

装饰集群也有两个任务:

1. 消费队列中的装饰任务,查询“追踪对象表”和“主题表”,获取多种用户需求。对于每个用户,分别将抓取结果过滤和装饰,最后的封装结果按用户入库。

2. 入库成功后,需要远程调用(rmi)搜索引擎(搜索引擎建索引)、云通信(发送移动通知、邮件通知)、动态流(即刻的消息页,动态流需要将主题新更内容分发到对应关注者的“动态流”表中)。

四、爬虫技术实现

目前我这边追踪机器人使用的技术是python的Scrapy框架,分布式实现用的是scrapy-redis。

欢迎有志之士来我司和我一起实现我们产品中的信息订阅环节的工程,订阅环节是我们产品的基础,当然我们的产品远不只是这些。

我希望你有下面的知识点:

1)知道如何利用IDE(推荐PyCharm)调试scrape爬虫程序 2)熟练使用xpath或css选择器获取页面元素 3)知道如何使用selenium进行自动登录 4)熟练利用middleware中间件做ip代理池 5)使用scrapy-redis做过分布式爬虫项目 6)熟悉scrape架构图,熟练使用middleware中间件和信号(Signals)进行扩展开发 7)熟悉各种爬虫、反爬虫攻防策略

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏哲学驱动设计

OEA框架 2.9 Pre-Alpha 源码公布

    OEA框架 从 2009 年发布“第一个版本”之后,历时三年,现在终于又公开向大家开放最新的源代码。三年来,许多朋友都关心 OEA 是否还在开发,是否还...

2067
来自专栏北京马哥教育

性能调优概述,这是一篇最通俗易懂性能调优的总结!

精彩早知道 作者概述 什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) ...

5305
来自专栏北京马哥教育

Linux 下的两种分层存储方案

在存储设备中,使用分层技术,将冷热数据自动分层存放在具有不用读写性能的存储介质上,已经是很普遍的做法,比如 IBM 的 DS8K 中使用的 Easy Tier。...

3806
来自专栏Rainbond开源「容器云平台」

云帮社区版5月升级,全面支持后端服务高可用,修复了若干Bug

1473
来自专栏小白课代表

小白课代表的使用说明(必读)

2242
来自专栏编程

影响Java EE性能的十大问题

程序猿看过来:影响Java EE性能的十大问题 ? 本文是一名有10多年经验的高级系统架构师,他的主要专业领域是Java EE、中间件和JVM技术。他在性能优化...

2196
来自专栏施炯的IoT开发专栏

ZigBee On Windows Mobile--3.模拟器和实物调试

    继续前两篇” ZigBee On Windows Mobile--1.背景和结构”和” ZigBee On Windows Mobile--2.硬件和软...

19910
来自专栏JAVA高级架构

高并发、高性能 Web 架构

2922
来自专栏Android群英传

沪江学习Android端重构实践

923
来自专栏吴伟祥

认识消息队列(一) 转

业务无关,一个具有普适性质的消息队列组件不需要考虑上层的业务模型,只做好消息的分发就可以了,上层业务的不同模块反而需要依赖消息队列所定义的规范进行通信。

621

扫码关注云+社区

领取腾讯云代金券