问我是否正确地使用scrapy-redis来抓取大量URL？
EN

Stack Overflow用户

提问于 2020-07-31 01:23:22

回答 1查看 182关注 0票数 0

我对分布式scrapy爬虫是个新手，但是我发现了scrapy-redis并且一直在使用它。我在一个覆盆子pi上使用它来抓取大量我推送到redis的URL。我所做的就是在Pi中创建多个SSH会话，然后运行scrapy crawl myspider让爬行器“等待”。然后我启动另一个SSH并执行redis-cli lpush "my links“。然后爬虫运行，尽管我不确定它们实际运行的并发程度。

我希望这是清楚的，如果没有，请让我知道，我可以澄清。我真的只是在寻找在实现这个基本版本的scrapy-redis之后的“下一步”。

编辑:我是从这个答案Extract text from 200k domains with scrapy开始的。回答者说他用scrapy-redis织出了64只蜘蛛。

scrapy

回答 1

Stack Overflow用户

发布于 2020-07-31 15:14:52

创建多个SSH会话的意义是什么？并发性？如果这就是答案，我相信scrapy本身可以一次处理所有的urls，具有你想要的并发性，给出爬行过程的准确反馈。

在这种情况下，您将只需要一个抓取蜘蛛。

另一方面，如果你的想法是利用多个实例，我建议你看看frontera (https://github.com/scrapinghub/frontera)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63178287

复制

相似问题

问我是否正确地使用scrapy-redis来抓取大量URL？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我是否正确地使用scrapy-redis来抓取大量URL？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我是否正确地使用scrapy-redis来抓取大量URL？
EN