首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Scrapy Crawler进程设置

Scrapy Crawler进程设置
EN

Stack Overflow用户
提问于 2018-12-13 00:15:07
回答 1查看 621关注 0票数 1

我已经构建了多个爬虫程序,并希望使用CrawlerProcess同时运行它们。但是,在构建爬行器时,我对其进行了设置,这样它们的运行速度会稍慢一些,并且会有下载延迟。当单独运行爬虫时,设置工作得很好,但当我运行所有四个爬虫时,它的爬行速度非常快,一些网站将我踢出网络。我想知道的是为什么CrawlerProcess不遵循设置,如果有一种方法可以实现这一点,我该如何实现。

下面是我如何设置它的:

TMP_FILE = os.path.join(os.path.dirname(sys.modules['items'].__file__), 'tmp/items.csv')

process = CrawlerProcess({
'FEED_FORMAT': 'csv',
'FEED_URI': TMP_FILE,
})
process.crawl(Spider1)
process.crawl(Spider2)
process.crawl(Spider3)
process.crawl(Spider4)
process.start()
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53747127

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档