专栏首页python3python 爬虫(三) spider类

python 爬虫(三) spider类

Spider就是定义爬取的动作及分析网站的地方。

  1. spider原理 以初始的URL**初始化Request**,并设置回调函数。 当该request**下载完毕并返回时,将生成**response ,并作为参数传给该回调函数
  2. 初始化request —> start_requests() start_requests() 读取 start_urls 中的URL, 并以 parse 为回调函数生成 Request 。
  3. 回调处理parse(self,response) 以使用 选择器(Selectors)或者BeautifulSoup 来分析网页内容,返回 Item 对象或者 Request 返回的Request对象之后scrapy 会跟进处理 进入下一轮的循环 返回item 会进Item Pipeline 处理数据

4.spider 属性方法

  • name 定义spider名字的字符串
  • allowed_domains 可选。包含了spider允许爬取的域名(domain)列表(list)
  • start_urls URL列表。当没有制定特定的URL时,spider将从该列表中开始进行爬取
  • start_requests() 当spider启动爬取并且未制定URL时,该方法被调用。可用于批量生成初始url
  • parse() 当response没有指定回调函数时,该方法是Scrapy处理下载的response的默认方法。
  • log() 使用 scrapy.log.msg() 方法记录(log)message。
  • closed() 当spider关闭时,该函数被调用。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Ipython 解释器

    通常我们并不使用Python自带的解释器,而是使用另一个比较方便的解释器——ipython解释器,命令行下输入:

    py3study
  • h3c交换机初始配置

    新买了一台h3c 5500系列交换机,打开之后初始配置与支持文档所说的配置不一样,下面对初始配置做一个解释。

    py3study
  • Python自动更新脚本

    本脚本主要针对python2.6升级至python2.7.12,并且解决了升级后不能使用yum的问题。添加了ipython功能

    py3study
  • C++反汇编第五讲,认识多重继承,菱形继承的内存结构,以及反汇编中的表现形式.

          C++反汇编第五讲,认识多重继承,菱形继承的内存结构,以及反汇编中的表现形式. 目录:   1.多重继承在内存中的表现形式     多重继承在汇编中...

    IBinary
  • Leetcode: Linked List Cycle II

    题目: Given a linked list, return the node where the cycle begins. If there is n...

    卡尔曼和玻尔兹曼谁曼
  • 【深度学习系列】用PaddlePaddle和Tensorflow实现GoogLeNet InceptionV2/V3/V4

    上一篇文章我们引出了GoogLeNet InceptionV1的网络结构,这篇文章中我们会详细讲到Inception V2/V3/V4的发展历程以及它们的网络结...

    Charlotte77
  • 一文让你入门CNN,附3份深度学习视频资源

    CNN简介 文末附三份深度学习视频资源 后台回复关键词(20180310) 目录: 一些视频资源和文章 CNN简介 图像即四维张量? 卷积的定义 CNN如何工作...

    昱良
  • [高大上的DL]经典网络模型总结之GoogLeNet篇

    勘误:开始之前说一下,昨天介绍的环境搭建的那篇,里面我忘记写cudnn的安装说明了,只贴了在哪下载,我在word版里面已经更新了,欢迎需要的童鞋下载查看。还有一...

    用户1622570
  • Daydream上线一年,谷歌曾经的诺言都兑现了吗?

    VRPinea
  • 白盒测试体系-结果度量篇

    在前文我们提到,采用白盒测试的项目在前期投入的成本很高,因此需要全面的评价体系对白盒测试的结果进行度量。本文将从以下3个方面对白盒测试体系中的结果度量进行分享:

    用户5521279

扫码关注云+社区

领取腾讯云代金券