问Scrapy Crawler进程设置
EN

Stack Overflow用户

提问于 2018-12-13 00:15:07

回答 1查看 621关注 0票数 1

我已经构建了多个爬虫程序，并希望使用CrawlerProcess同时运行它们。但是，在构建爬行器时，我对其进行了设置，这样它们的运行速度会稍慢一些，并且会有下载延迟。当单独运行爬虫时，设置工作得很好，但当我运行所有四个爬虫时，它的爬行速度非常快，一些网站将我踢出网络。我想知道的是为什么CrawlerProcess不遵循设置，如果有一种方法可以实现这一点，我该如何实现。

下面是我如何设置它的：

TMP_FILE = os.path.join(os.path.dirname(sys.modules['items'].__file__), 'tmp/items.csv')

process = CrawlerProcess({
'FEED_FORMAT': 'csv',
'FEED_URI': TMP_FILE,
})
process.crawl(Spider1)
process.crawl(Spider2)
process.crawl(Spider3)
process.crawl(Spider4)
process.start()

python

web-scraping

scrapy

回答 1

Stack Overflow用户

发布于 2018-12-13 04:05:45

通过添加自定义设置到我的每个蜘蛛修复了这个问题。您可以将其添加到起始urls列表的正下方。

start_urls =['www.example.com']

custom_settings = {
    'DOWNLOAD_DELAY': 8,
    'CONCURRENT_REQUESTS': 1,
    'AUTOTHROTTLE_ENABLED': True,
    'AUTOTHROTTLE_START_DELAY': 5,

}

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53747127

复制

相似问题

问Scrapy Crawler进程设置
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy Crawler进程设置EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy Crawler进程设置
EN