首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

scrapy学习笔记十一 scrapy实战效率测评

(原谅这个名词) 2:测试 其中CONCURRENT_REQUESTS是进程数CONCURRENT_REQUESTS_PER_DOMAIN 单该站点同时多少进程可以爬 DOWNLOAD_DELAY 则是下载时延...测试一: scrapy配置如下: 进程数4,时延0.1 CONCURRENT_REQUESTS =  8 DOWNLOAD_DELAY = 0.1 CONCURRENT_REQUESTS_PER_DOMAIN...cpu 35% 内存 60~~100.网速 12 kb下载 测试二: scrapy配置如下 :进程数64,时延0.1 CONCURRENT_REQUESTS =  128 DOWNLOAD_DELAY...cpu 35% 内存 80.网速 12 kb下载 测试三: scrapy配置如下 :进程数64,时延0.1 CONCURRENT_REQUESTS =  128 DOWNLOAD_DELAY = 0.1...cpu 35% 内存 80.网速 12 kb下载 测试四: scrapy配置如下 :进程数64,时延0.5 CONCURRENT_REQUESTS =  128 DOWNLOAD_DELAY = 0.5

70610
您找到你想要的搜索结果了吗?
是的
没有找到

爬虫相关

,默认值0,代表无限制,需要注意两点 #I、如果不为零,那CONCURRENT_REQUESTS_PER_DOMAIN将被忽略,即并发数的限制是按照每个IP来计算,而不是每个域名 #II、该设置也影响DOWNLOAD_DELAY...,如果该值不为零,那么DOWNLOAD_DELAY下载延迟是限制每个IP而不是每个域 #CONCURRENT_REQUESTS_PER_IP = 16 #4、如果没有开启智能限速,这个值就代表一个规定死的值...,代表对同一网址延迟请求的秒数 #DOWNLOAD_DELAY = 3 #===>第三部分:智能限速/自动节流:AutoThrottle extension<=== #一:介绍 from scrapy.contrib.throttle...AUTOTHROTTLE_TARGET_CONCURRENCY #3、下一次请求的下载延迟就被设置成:对目标站点下载延迟时间和过去的下载延迟时间的平均值 #4、没有达到200个response则不允许降低延迟 #5、下载延迟不能变的比DOWNLOAD_DELAY...AUTOTHROTTLE_MAX_DELAY更高 #四:配置使用 #开启True,默认False AUTOTHROTTLE_ENABLED = True #起始的延迟 AUTOTHROTTLE_START_DELAY = 5 #最小延迟 DOWNLOAD_DELAY

1.1K20
领券