问分布式系统中的任务分配
EN

Software Engineering用户

提问于 2017-06-01 22:19:59

回答 1查看 93关注 0票数 2

我想抓取网站和写入输出到Solr与我的应用程序。我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。

我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

发布于 2017-06-02 10:42:58

如果你已经有了卡夫卡，你可以定义另一个主题，它只包含需要爬行的URL。

爬虫者听这个主题，投票下一个URL来爬行。爬虫应该共享一个组id，这样每条消息都只能传递给一个爬虫。当爬虫检测到新URL时，它们不会递归地爬行，而是将新URL放入URL主题中。

您必须为这个主题创建足够多的分区(至少有尽可能多的爬虫实例，但在可能的情况下应该更多)。

票数 1

页面原文内容由Software Engineering提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwareengineering.stackexchange.com/questions/350021

复制

相似问题

问分布式系统中的任务分配EN