我想抓取网站和写入输出到Solr与我的应用程序。我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。
我的问题是:当一个爬虫想要爬一个网站,其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信?
发布于 2017-06-02 10:42:58
如果你已经有了卡夫卡,你可以定义另一个主题,它只包含需要爬行的URL。
爬虫者听这个主题,投票下一个URL来爬行。爬虫应该共享一个组id,这样每条消息都只能传递给一个爬虫。当爬虫检测到新URL时,它们不会递归地爬行,而是将新URL放入URL主题中。
您必须为这个主题创建足够多的分区(至少有尽可能多的爬虫实例,但在可能的情况下应该更多)。
https://softwareengineering.stackexchange.com/questions/350021
复制相似问题