1、对于所有任务产生的实时数据,通过Kafka及时推送。 2、对于新加任务需要去历史全量数据表中获取该任务已有的历史数据。 3、爬虫集群在生产数据时需要去全量数据中进行下匹配,如果不存在才会推送给Kafka。
Kafka+MySQL架构设计
欢迎相关人员一起交流。
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!