首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我是否正确地使用scrapy-redis来抓取大量URL?

我是否正确地使用scrapy-redis来抓取大量URL?
EN

Stack Overflow用户
提问于 2020-07-31 01:23:22
回答 1查看 182关注 0票数 0

我对分布式scrapy爬虫是个新手,但是我发现了scrapy-redis并且一直在使用它。我在一个覆盆子pi上使用它来抓取大量我推送到redis的URL。我所做的就是在Pi中创建多个SSH会话,然后运行scrapy crawl myspider让爬行器“等待”。然后我启动另一个SSH并执行redis-cli lpush "my links“。然后爬虫运行,尽管我不确定它们实际运行的并发程度。

我希望这是清楚的,如果没有,请让我知道,我可以澄清。我真的只是在寻找在实现这个基本版本的scrapy-redis之后的“下一步”。

编辑:我是从这个答案Extract text from 200k domains with scrapy开始的。回答者说他用scrapy-redis织出了64只蜘蛛。

EN

回答 1

Stack Overflow用户

发布于 2020-07-31 15:14:52

创建多个SSH会话的意义是什么?并发性?如果这就是答案,我相信scrapy本身可以一次处理所有的urls,具有你想要的并发性,给出爬行过程的准确反馈。

在这种情况下,您将只需要一个抓取蜘蛛。

另一方面,如果你的想法是利用多个实例,我建议你看看frontera (https://github.com/scrapinghub/frontera)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63178287

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档