前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python Scrapy 爬虫框架 | 1、简介与安装

Python Scrapy 爬虫框架 | 1、简介与安装

作者头像
TeamsSix
发布2019-12-30 10:10:58
4910
发布2019-12-30 10:10:58
举报
文章被收录于专栏:TeamsSix的网络空间安全专栏

0x00 简介

下图展示了 Scrapy 的体系结构及其组件概述,在介绍图中的流程前,先来简单了解一下图中每个组件的含义。

Engine

Engine 负责控制系统所有组件之间的数据流,并在某些操作发生时触发事件。

Scheduler

Scheduler 接收来自 Engine 的请求,并对请求进行排队,以便稍后在 Engine 请求时提供这些请求。

Downloader

Downloader 负责获取 web 页面内容并将其提供给 Engine,Engine 再将其提供给 Spiders。

Spiders

Spiders 是由 Scrapy 用户编写的自定义类,用于解析响应并从响应中提取所需要的内容。

Item Pipelines

Item Pipelines 负责处理由 Spiders 提取的数据。典型的任务包括清理、验证和持久性(比如把数据存储在数据库中)。

1、Engine 从 Spiders 获取要爬行的初始请求。

2、Engine 在 Scheduler 中调度请求并请求爬行下一个请求。

3、Scheduler 将下一个请求返回给 Engine。

4、Engine 将请求发送给 Downloader,Downloader 对待请求网站进行访问。

5、Downloader 获取到响应后,将响应数据发送到 Engine。

6、Engine 接收来自 Downloader 的响应并将其发送到 Spiders 进行解析处理。

7、Spiders 处理响应后将解析到的数据发送给 Engine。

8、Engine 将处理过的数据发送到 Item Pipelines,然后将处理过的请求发送到 Scheduler,并请求爬行可能的下一个请求,该过程重复(从步骤1开始),直到 Scheduler 不再发出请求为止。

0x01 安装

在安装 Scrapy 之前,建议先安装 Anaconda ,可以省去不少麻烦,Scrapy可以直接 pip 安装,值得注意的是,如果使用 Python2 开发,就需要使用 pip2 安装,使用 Python3 开发就需要使用 pip3 安装,安装命令如下:

代码语言:javascript
复制
pip install scrapy

如果安装比较慢,可以指定国内安装源进行安装,下面的命令使用的清华源。

代码语言:javascript
复制
pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

使用 -i 指定国内安装源后可以有效的提高下载速度。

参考链接: https://youtu.be/aDwAmj3VWH4 http://doc.scrapy.org/en/latest/topics/architecture.htm

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 TeamsSix 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0x00 简介
    • Engine
      • Scheduler
        • Downloader
          • Spiders
            • Item Pipelines
            • 0x01 安装
            相关产品与服务
            数据保险箱
            数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档