前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >scrapy学习笔记十一 scrapy实战效率测评

scrapy学习笔记十一 scrapy实战效率测评

作者头像
十四君
发布2019-11-27 15:07:24
7390
发布2019-11-27 15:07:24
举报
文章被收录于专栏:Urlteam

近期用scrapy做了不少项目,先从一个简单的poi数据来做一个小分析:最终效率结果是4w个页面,在开启30个客户端的分布式下,半个小时完成。

1:电脑配置如下

i5–cpu。8G–内存。网速还行。(原谅这个名词)

2:测试

其中CONCURRENT_REQUESTS是进程数CONCURRENT_REQUESTS_PER_DOMAIN 单该站点同时多少进程可以爬

DOWNLOAD_DELAY 则是下载时延

测试一:

scrapy配置如下: 进程数4,时延0.1

代码语言:javascript
复制
CONCURRENT_REQUESTS =  8
DOWNLOAD_DELAY = 0.1
CONCURRENT_REQUESTS_PER_DOMAIN = 4

效率如下:160页面每分钟。cpu 35% 内存 60~~100.网速 12 kb下载

测试二:

scrapy配置如下 :进程数64,时延0.1

代码语言:javascript
复制
CONCURRENT_REQUESTS =  128
DOWNLOAD_DELAY = 0.1
CONCURRENT_REQUESTS_PER_DOMAIN = 64

效率如下:140页面每分钟。cpu 35% 内存 80.网速 12 kb下载

测试三:

scrapy配置如下 :进程数64,时延0.1

代码语言:javascript
复制
CONCURRENT_REQUESTS =  128
DOWNLOAD_DELAY = 0.1
CONCURRENT_REQUESTS_PER_DOMAIN = 64

效率如下:140页面每分钟。cpu 35% 内存 80.网速 12 kb下载

测试四:

scrapy配置如下 :进程数64,时延0.5

代码语言:javascript
复制
CONCURRENT_REQUESTS =  128
DOWNLOAD_DELAY = 0.5
CONCURRENT_REQUESTS_PER_DOMAIN = 64

效率如下:100页面每分钟。cpu 35% 内存 80.网速 8 kb下载

测试五:

scrapy配置如下 :进程数64,时延 1s

代码语言:javascript
复制
CONCURRENT_REQUESTS =  128
DOWNLOAD_DELAY = 1
CONCURRENT_REQUESTS_PER_DOMAIN = 64

效率如下:50页面每分钟。cpu 30% 内存 75.网速 6 kb下载

截图如下:

原创文章,转载请注明: 转载自URl-team

本文链接地址: scrapy学习笔记十一 scrapy实战效率测评

Related posts:

  1. Scrapy-笔记一 入门项目 爬虫抓取w3c网站
  2. Scrapy-笔记二 中文处理以及保存中文数据
  3. Scrapy笔记三 自动多网页爬取-本wordpress博客所有文章
  4. Scrapy笔记五 爬取妹子图网的图片 详细解析
  5. Scrapy笔记零 环境搭建与五大组件架构
  6. scrapy笔记六 scrapy运行架构的实例配合解析
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016-07-292,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Related posts:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档