首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >最好的网络图形爬虫的速度?

最好的网络图形爬虫的速度?
EN

Stack Overflow用户
提问于 2010-08-06 21:08:48
回答 3查看 2.6K关注 0票数 5

在过去的一个月里,我一直在使用Scrapy进行一个我已经开始的网络爬行项目。

这个项目涉及到拉下的所有网页的完整文件内容在一个单一的域名,可以从主页上到达。使用Scrapy编写这段代码非常简单,但它运行起来太慢了。在2-3天内,我只能拉下100,000页。

我已经意识到,我最初认为Scrapy不适合这种爬行的想法正在暴露出来。

我已经开始关注Nutch和Methabot,希望能有更好的性能。在爬行过程中,我需要存储的唯一数据是网页的完整内容,最好是页面上的所有链接(但即使是这样,也可以在后处理中完成)。

我正在寻找一个爬虫,是快速的,并采用了许多并行请求。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-09-02 21:58:30

这是服务器的问题,不是Scrapy的问题。服务器可能没有您想要的那么快,也可能是它(或网站管理员)检测到此连接/cookie的爬行和限制速度。你使用proxy吗?这可能也会减慢爬行速度。这可能是Scrapy的智慧,如果你爬行太密集,你可能会在这个服务器上被禁止。对于我的C++ handwritten crawler,我人为地设置了每秒1个请求的限制。但是这个速度对于一个线程已经足够了(1个请求*60秒* 60分钟* 24小时= 86400个请求/天)。如果您感兴趣,可以向whalebot.helmsman {AT} gmail.com发送电子邮件。

票数 5
EN

Stack Overflow用户

发布于 2010-09-07 08:24:04

Scrapy允许您在its settings中确定并发请求的数量和请求之间的延迟。

票数 2
EN

Stack Overflow用户

发布于 2010-09-20 03:57:26

你知道瓶颈在哪里吗?正如whalebot.helmsman所指出的,限制可能不在Scrapy本身,而是在您正在爬行的服务器上。

您应该首先找出瓶颈是网络还是CPU。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3424027

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档