首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何加快Scrapy Crawl?

如何加快Scrapy Crawl?
EN

Stack Overflow用户
提问于 2019-07-21 05:09:07
回答 1查看 493关注 0票数 0

我正在抓取一个网站,我有一个大小为100K+的记录。脚本目前的爬行速度是9页/分钟。是不是花了太多时间?我怎样才能加速这个过程?

EN

回答 1

Stack Overflow用户

发布于 2019-07-21 05:28:44

有几件事你可以试着看看它们是否对你有效:

  • 如果您使用的是自动调节(AUTOTHROTTLE_ENABLED),请尝试禁用它,并在设置中降低DOWNLOAD_DELAY变量。这样做你有被禁止的风险。
  • 将AUTOTHROTTLE_ENABLED设置为True,你可以尝试DOWNLOAD_DELAY (最小延迟时间)和AUTOTHROTTLE_MAX_DELAY (最大延迟时间)。
  • 另一个你可以改变的变量是CONCURRENT_REQUESTS (和CONCURRENT_REQUESTS_PER_IP & CONCURRENT_REQUESTS_PER_DOMAIN)。在此处设置较高的值可能会加快爬网速度,但也会增加被禁止的风险。
  • 对您的请求使用代理,同时降低DOWNLOAD_DELAY并增加CONCURRENT_REQUESTS的数量,可以加快爬网速度,降低被禁止的风险。您可能会使您正在爬行的网站的服务器超载。
  • 更具伸缩性的方法是将请求分布在多个服务器上。例如,您可以通过将网站的不同部分分配给不同的服务器或使用Scrapy Cluster (Scrapy Cluster documentation)

之类的解决方案来完成此操作

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57128618

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档