Scrapy Shell

这篇文章很简单,可以说是 Scrapy 系列中最短最简单的文章。本篇文章主要讲解 Scrapy Shell 的相关知识。

零、 Scrapy Shell

Scrapy Shell 是一个交互终端,可以在没有启动 Spider 的情况下调试代码。我们在开发爬虫时会经常利用它来测试我们编写的 XPath 或者 Css 表达式是否可以提取到正确的数据。它的语法也很简单:

scrapy shell [url] [设置信息]

Scrapy Shell 既可以爬取网络上的网页信息,也可以爬取本地文件,以下几种都是正确的:

scrapy shell ./html/1.html
scrapy shell ../html/2.html
scrapy shell /html/3.html
scrapy shell d:\\html\\4.html

这里需要注意的是如果要访问本地的网址必须加上 ./ ,如果是本地相对路径就必须使用 …/ 。它的常用命令一共有 4 个,如下表。

命令

说明

shelp()

打印所有可以使用的属性和命令

fetch(url[,redurect=True])

从指定的url获取一个新的response。如果 redurect 为 true 时将不会进行重定向获取数据

fetch(response)

使用指定的response获取一个新的response

view(response)

用浏览器打开response

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Scrapy Pipeline

    Scrapy 中的 Pipeline 为我们提供了处理数据的功能,在实际开发中我们经常使用它来清洗/验证数据、去重和数据保存。在一个项目中会存在多种 Pipel...

    喵叔
  • SQL Server 每日一题--只逛不买

    A商城最近要进行双十一促销活动,首先需要统计出从来没有买过任何一件东西的注册会员,然后在双十一当天向他们推送大量促销信息,促成他们购买第一件商品。

    喵叔
  • 确保初始化静态成员

    在开发时我们习惯在创将某个实例之前先把静态成员变量初始化好,具体做法是通过静态初始化语句以及静态构造函数。静态构造函数在 c# 是比较特殊的函数,它会在第一次访...

    喵叔
  • 2019 HDU 多校赛第三场 HDU 6609 Find the answer(multiset 遍历神仙做法 )

    题意: 多组询问,n个人,值m, 接下来n个值,要求当前值加上前面尽量多的值之和小于等于 m ,问前面要去掉几个值

    用户2965768
  • 括号匹配问题

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    喜欢ctrl的cxk
  • 一个粗心的Bug,JSON格式不规范导致AJAX错误

    一、事件回放 今天工作时碰到了一个奇怪的问题,这个问题很早很早以前也碰到过,不过没想到过这么久了竟然又栽在这里。 当时正在联调一个项目,由于后端没有提供数据...

    逸鹏
  • wordpress站点设置登陆才可访问网站如何操作?

    最近遇到一个比较变X的需求,一般人不给访问网站内容的,打开网站强制跳转到登录页面,需要成功登陆才能正常的访问网站和发布内容。结果在网上搜索了一下还真有类似的需求...

    wordpress建站吧
  • gsoap入门:获取服务器(axis2)端的异常(exception)对象

    版权声明:本文为博主原创文章,转载请注明源地址。 https://blog.csdn.net...

    用户1148648
  • rbd的image快照与Pool快照

    这个错我之前也没见过,并且因为很少用到快照,所以可能也就没有触发这个问题,在查看了一些资料以后,明白了原因,这里就梳理一下

    用户2772802
  • 浅谈三星KNOX安全解决方案

    我们之前谈过各种TEE的软硬件实现,包括Intel SGX方案、AMD的PSP技术、TI公司的M-shield安全技术、以及MIP架构上的虚拟化TEE实现等...

    安智客

扫码关注云+社区

领取腾讯云代金券