前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >scrapy执行流程

scrapy执行流程

作者头像
人生不如戏
发布2018-07-04 11:06:39
7030
发布2018-07-04 11:06:39
举报
文章被收录于专栏:抠抠空间抠抠空间

整体流程

代码语言:javascript
复制
- 引擎找到要执行的爬虫,并执行爬虫的 start_requests 方法,并的到一个 迭代器。
- 迭代器循环时会获取Request对象,而request对象中封装了要访问的URL和回调函数。
- 将所有的request对象(任务)放到调度器中,用于以后被下载器下载。

- 下载器去调度器中获取要下载任务(就是Request对象),下载完成后执行回调函数。

- 回到spider的回调函数中,
       yield Request()
       yield Item()

具体流程

代码语言:javascript
复制
1. scrapy crawl chouti --nolog
	
2. 找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调度器对象
	- 执行Scheduler.from_crawler
	- 执行Scheduler.from_settings
		- 读取配置文件:
			SCHEDULER_PERSIST			 # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
			SCHEDULER_FLUSH_ON_START     # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空
			SCHEDULER_IDLE_BEFORE_CLOSE  # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。
		- 读取配置文件:	
			SCHEDULER_QUEUE_KEY			 # %(spider)s:requests
			SCHEDULER_QUEUE_CLASS		 # scrapy_redis.queue.FifoQueue
			SCHEDULER_DUPEFILTER_KEY     # '%(spider)s:dupefilter'
			DUPEFILTER_CLASS			 # 'scrapy_redis.dupefilter.RFPDupeFilter'
			SCHEDULER_SERIALIZER		 # "scrapy_redis.picklecompat"

		- 读取配置文件:
			REDIS_HOST = '140.143.227.206'                            # 主机名
			REDIS_PORT = 8888                                   # 端口
			REDIS_PARAMS  = {'password':'beta'}                                  # Redis连接参数             默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,})
			REDIS_ENCODING = "utf-8"      
	- 示例Scheduler对象
	
3. 爬虫开始执行起始URL
	- 调用 scheduler.enqueue_requests()
		def enqueue_request(self, request):
			# 请求是否需要过滤?
			# 去重规则中是否已经有?(是否已经访问过,如果未访问添加到去重记录中。)
			if not request.dont_filter and self.df.request_seen(request):
				self.df.log(request, self.spider)
				# 已经访问过就不要再访问了
				return False
			
			if self.stats:
				self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
			# print('未访问过,添加到调度器', request)
			self.queue.push(request)
			return True
	
4. 下载器去调度器中获取任务,去下载
	
	- 调用 scheduler.next_requests()
		def next_request(self):
			block_pop_timeout = self.idle_before_close
			request = self.queue.pop(block_pop_timeout)
			if request and self.stats:
				self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
			return request
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-07-03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 整体流程
  • 具体流程
相关产品与服务
云数据库 Redis
腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档