前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scrapy快速入门系列(1) | 一文带你快速了解Scrapy框架(版本2.3.0)

Scrapy快速入门系列(1) | 一文带你快速了解Scrapy框架(版本2.3.0)

作者头像
不温卜火
发布2020-10-28 17:24:26
1.2K0
发布2020-10-28 17:24:26
举报
文章被收录于专栏:不温卜火

一. Scrapy的简单介绍

如果想要详细的查看Scrapy的相关内容可以自行查看官方文档。 文档地址如下:https://docs.scrapy.org/en/latest/intro/overview.html#walk-through-of-an-example-spider

1.1 什么是Scrapy?

  Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

  Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

1.2 基本功能

  Scrapy是一个用于爬网网站并提取结构化数据的应用程序框架,可用于各种有用的应用程序,例如数据挖掘,信息处理或历史档案。

  尽管Scrapy原本是设计用来屏幕抓取(更精确的说,是网络抓取),但它也可以用来访问API来提取数据。

二. 示例展示

此部分来源于官方

为了能够展示出Scrapy带来的好处,博主将使用最简单的运行Spider的方式向您介绍Scrapy Spider的示例。

2.1 官方案例

代码语言:javascript
复制
import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
    	# 所要爬取的真实网址
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
    	# 使用CSS选择器遍历quote元素,生成包含提取的报价文本和作者的Python dict,查找指向下一页的链接
        for quote in response.css('div.quote'):
            yield {
            	# 通过xpath的方式解析并获取出作者的名字
                'author': quote.xpath('span/small/text()').get(),
                'text': quote.css('span.text::text').get(),
            }

        next_page = response.css('li.next a::attr("href")').get()
        # 判断  如果下一页不为空,继续进行爬取操作
        if next_page is not None:
            yield response.follow(next_page, self.parse)
  • 2. 将其放在文本文件中,命名为类似名称,quotes_spider.py 然后使用以下runspider命令运行Spider
代码语言:javascript
复制
scrapy runspider quotes_spider.py -o quotes.json
  • 3. 完成此操作后,您将在quotes.json文件中包含JSON格式的引号列表,其中包含文本和作者,如下所示(此处重新格式化以提高可读性)
代码语言:javascript
复制
[{
    "author": "Jane Austen",
    "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"
},
{
    "author": "Groucho Marx",
    "text": "\u201cOutside of a dog, a book is man's best friend. Inside of a dog it's too dark to read.\u201d"
},
{
    "author": "Steve Martin",
    "text": "\u201cA day without sunshine is like, you know, night.\u201d"
},
...]

2.2 简单解析

  • 1. 查看标签为humor的界面结构
3
3
  • 2. F12(开发者选项)后查看重要标签点

① 总体

4
4

② 文本

5
5

③ 作者

6
6

④ 翻页

7
7
  • 3. 解析上述所看到的标签(都在源码中进行注释了)

需要提前知道的一些小知识:在使用构造器的时候,使用XPath和CSS查询响应非常普遍,他们两个的快捷键分别为:response.xpath()response.css()

  • 1.使用CSS选择器遍历quote元素,生成包含文本和作者的Python dict,查找指向下一页的链接
  • 2.再分别通过span/small/text()span.text::text得到作者与其本人所发表的文本内容
  • 3.最后通过li.next a::attr("href")获取翻页后的内容并且做出判断如果不存在,则自动停止爬取。

三. Scrapy架构概述

3.1 Scrapy架构的整体流程

下图显示了Scrapy体系结构及其组件的概述,以及系统内部发生的数据流的概况(由红色箭头显示)。下面包括对这些组件的简要说明,以及有关它们的更多详细信息的链接。数据流也在下面描述。

8
8

Scrapy中的数据流由执行引擎控制,如下所示:

  • 官方原始
9
9
  • 博主本人翻译如下
  • 1.Scrapy Engine(引擎)从Spider中获取最初的爬取请求。
  • 2.在Scrapy Engine(引擎)获取到来自于Spider的请求之后,会请求Scheduler(调度器)并告诉他下一个执行请求。
  • 3.Scheduler(调度器)得到信息并把下一个请求返回给Engine。
  • 4.通过Downloader Middlewares(下载器中间件),Scrapy Engine(引擎)把请求发送到Downloader(下载器)。
  • 5.页面下载完成后, Downloader(下载器)会通过Downloader Middlewares(下载器中间件),生成一个带有该页面的Response(响应),并将其发送到Engine。
  • 6.通过Spider Middleware(Spider中间件),Scrapy Engine(引擎)接收到来自于 Downloader(下载器)的响应并将其发送到Spider进行处理。
  • 7.通过Spider Middleware(Spider中间件),Spider处理和响应来自于Scrapy Engine(引擎)的项目和新的需求。
  • 8.Scrapy Engine(引擎)通过Item Pipelines(管道)发送处理的项目,然后把处理的请求返回到Scheduler(调度器),并要求今后可能请求爬行。
  • 9.重复上述过程,直到不再有Scheduler(调度器)的请求为止。

3.2 Scrapy框架的简单介绍

Scrapy Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。

Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。

Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)。

Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方。

Downloader Middlewares(下载中间件):下载器中间件是位于引擎和下载器之间的特定挂钩,它们在从引擎传递到下载器时处理请求,以及从下载器传递到引擎的响应。

如果需要执行以下操作之一,请使用Downloader中间件:

  • 在将请求发送到下载器之前处理请求(即,在Scrapy将请求发送到网站之前);
  • 在将接收到的响应传递给爬虫之前,先对其进行更改;
  • 发送新的请求,而不是将收到的响应传递给爬虫;
  • 将响应传递给蜘蛛,而无需获取网页;
  • 默默地丢弃一些请求。

Spider Middlewares(Spider中间件):一个可以自定扩展和操作引擎和Spider中间通信的功能组件。其是位于引擎和爬虫之间的特定挂钩,并且能够处理爬虫的输入(响应)和输出(项目和请求)。

如果需要,请使用Spider中间件

  • 爬虫回调的后处理输出-更改/添加/删除请求或项目;
  • 然后处理start_requests;
  • 处理爬虫异常;
  • 根据响应内容,对某些请求调用errback而不是回调。

  本次的分享就到这里了

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/09/19 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一. Scrapy的简单介绍
    • 1.1 什么是Scrapy?
      • 1.2 基本功能
      • 二. 示例展示
        • 2.1 官方案例
          • 2.2 简单解析
          • 三. Scrapy架构概述
            • 3.1 Scrapy架构的整体流程
              • 3.2 Scrapy框架的简单介绍
              相关产品与服务
              消息队列 TDMQ
              消息队列 TDMQ (Tencent Distributed Message Queue)是腾讯基于 Apache Pulsar 自研的一个云原生消息中间件系列,其中包含兼容Pulsar、RabbitMQ、RocketMQ 等协议的消息队列子产品,得益于其底层计算与存储分离的架构,TDMQ 具备良好的弹性伸缩以及故障恢复能力。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档