开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何加快Scrapy Crawl？

问如何加快Scrapy Crawl？
EN

Stack Overflow用户

提问于 2019-07-21 05:09:07

回答 1查看 493关注 0票数 0

我正在抓取一个网站，我有一个大小为100K+的记录。脚本目前的爬行速度是9页/分钟。是不是花了太多时间？我怎样才能加速这个过程？

EN

回答 1

Stack Overflow用户

发布于 2019-07-21 05:28:44

有几件事你可以试着看看它们是否对你有效：

如果您使用的是自动调节(AUTOTHROTTLE_ENABLED)，请尝试禁用它，并在设置中降低DOWNLOAD_DELAY变量。这样做你有被禁止的风险。
将AUTOTHROTTLE_ENABLED设置为True，你可以尝试DOWNLOAD_DELAY (最小延迟时间)和AUTOTHROTTLE_MAX_DELAY (最大延迟时间)。
另一个你可以改变的变量是CONCURRENT_REQUESTS (和CONCURRENT_REQUESTS_PER_IP & CONCURRENT_REQUESTS_PER_DOMAIN)。在此处设置较高的值可能会加快爬网速度，但也会增加被禁止的风险。
对您的请求使用代理，同时降低DOWNLOAD_DELAY并增加CONCURRENT_REQUESTS的数量，可以加快爬网速度，降低被禁止的风险。您可能会使您正在爬行的网站的服务器超载。
更具伸缩性的方法是将请求分布在多个服务器上。例如，您可以通过将网站的不同部分分配给不同的服务器或使用Scrapy Cluster (Scrapy Cluster documentation)

之类的解决方案来完成此操作

票数 3

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57128618

复制

相似问题