我对分布式scrapy爬虫是个新手,但是我发现了scrapy-redis并且一直在使用它。我在一个覆盆子pi上使用它来抓取大量我推送到redis的URL。我所做的就是在Pi中创建多个SSH会话,然后运行scrapy crawl myspider
让爬行器“等待”。然后我启动另一个SSH并执行redis-cli lpush "my links“。然后爬虫运行,尽管我不确定它们实际运行的并发程度。
我希望这是清楚的,如果没有,请让我知道,我可以澄清。我真的只是在寻找在实现这个基本版本的scrapy-redis之后的“下一步”。
编辑:我是从这个答案Extract text from 200k domains with scrapy开始的。回答者说他用scrapy-redis织出了64只蜘蛛。
发布于 2020-07-31 15:14:52
创建多个SSH会话的意义是什么?并发性?如果这就是答案,我相信scrapy本身可以一次处理所有的urls,具有你想要的并发性,给出爬行过程的准确反馈。
在这种情况下,您将只需要一个抓取蜘蛛。
另一方面,如果你的想法是利用多个实例,我建议你看看frontera (https://github.com/scrapinghub/frontera)。
https://stackoverflow.com/questions/63178287
复制相似问题