文章/答案/技术大牛

发布

社区首页 >问答首页 >最好的网络图形爬虫的速度？

问最好的网络图形爬虫的速度？
EN

Stack Overflow用户

提问于 2010-08-06 21:08:48

回答 3查看 2.6K关注 0票数 5

在过去的一个月里，我一直在使用Scrapy进行一个我已经开始的网络爬行项目。

这个项目涉及到拉下的所有网页的完整文件内容在一个单一的域名，可以从主页上到达。使用Scrapy编写这段代码非常简单，但它运行起来太慢了。在2-3天内，我只能拉下100,000页。

我已经意识到，我最初认为Scrapy不适合这种爬行的想法正在暴露出来。

我已经开始关注Nutch和Methabot，希望能有更好的性能。在爬行过程中，我需要存储的唯一数据是网页的完整内容，最好是页面上的所有链接(但即使是这样，也可以在后处理中完成)。

我正在寻找一个爬虫，是快速的，并采用了许多并行请求。

scrapy

web-crawler

nutch

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-09-02 21:58:30

这是服务器的问题，不是Scrapy的问题。服务器可能没有您想要的那么快，也可能是它(或网站管理员)检测到此连接/cookie的爬行和限制速度。你使用proxy吗？这可能也会减慢爬行速度。这可能是Scrapy的智慧，如果你爬行太密集，你可能会在这个服务器上被禁止。对于我的C++ handwritten crawler，我人为地设置了每秒1个请求的限制。但是这个速度对于一个线程已经足够了(1个请求*60秒* 60分钟* 24小时= 86400个请求/天)。如果您感兴趣，可以向whalebot.helmsman {AT} gmail.com发送电子邮件。

票数 5

Stack Overflow用户

发布于 2010-09-07 08:24:04

Scrapy允许您在its settings中确定并发请求的数量和请求之间的延迟。

票数 2

Stack Overflow用户

发布于 2010-09-20 03:57:26

你知道瓶颈在哪里吗？正如whalebot.helmsman所指出的，限制可能不在Scrapy本身，而是在您正在爬行的服务器上。

您应该首先找出瓶颈是网络还是CPU。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3424027

复制

相似问题

问最好的网络图形爬虫的速度？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问最好的网络图形爬虫的速度？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问最好的网络图形爬虫的速度？
EN