Scrapy框架的使用之Scrapyrt的使用

Scrapyrt为Scrapy提供了一个调度的HTTP接口。有了它我们不需要再执行Scrapy命令,而是通过请求一个HTTP接口即可调度Scrapy任务,我们就不需要借助于命令行来启动项目了。如果项目是在远程服务器运行,利用它来启动项目是个不错的选择。

一、本节目标

我们以本章Scrapy入门项目为例来说明Scrapyrt的使用方法,项目源代码地址为:https://github.com/Python3WebSpider/ScrapyTutorial。

二、准备工作

请确保Scrapyrt已经正确安装并正常运行

三、启动服务

首先将项目下载下来,在项目目录下运行Scrapyrt,假设当前服务运行在9080端口上。下面将简单介绍Scrapyrt的使用方法。

四、GET请求

目前,GET请求方式支持如下的参数。

  • spider_name:Spider名称,字符串类型,必传参数。如果传递的Spider名称不存在,则返回404错误。
  • url:爬取链接,字符串类型,如果起始链接没有定义就必须要传递这个参数。如果传递了该参数,Scrapy会直接用该URL生成Request,而直接忽略start_requests()方法和start_urls属性的定义。
  • callback:回调函数名称,字符串类型,可选参数。如果传递了就会使用此回调函数处理,否则会默认使用Spider内定义的回调函数。
  • max_requests:最大请求数量,数值类型,可选参数。它定义了Scrapy执行请求的Request的最大限制,如定义为5,则表示最多只执行5次Request请求,其余的则会被忽略。
  • start_requests:代表是否要执行start_requests方法,布尔类型,可选参数。Scrapy项目中如果定义了start_requests()方法,那么项目启动时会默认调用该方法。但是在Scrapyrt中就不一样了,Scrapyrt默认不执行start_requests()方法,如果要执行,需要将start_requests参数设置为true。

我们执行如下命令:

curl http://localhost:9080/crawl.json?spider_name=quotes&url=http://quotes.toscrape.com/

结果如下图所示。

返回的是一个JSON格式的字符串,我们解析它的结构,如下所示:

{
  "status": "ok",
  "items": [
    {
      "text": "“The world as we have created it is a process of o...",
      "author": "Albert Einstein",
      "tags": [
        "change",
        "deep-thoughts",
        "thinking",
        "world"
      ]
    },
    ...
    {
      "text": "“... a mind needs books as a sword needs a whetsto...",
      "author": "George R.R. Martin",
      "tags": [
        "books",
        "mind"
      ]
    }
  ],
  "items_dropped": [],
  "stats": {
    "downloader/request_bytes": 2892,
    "downloader/request_count": 11,
    "downloader/request_method_count/GET": 11,
    "downloader/response_bytes": 24812,
    "downloader/response_count": 11,
    "downloader/response_status_count/200": 10,
    "downloader/response_status_count/404": 1,
    "dupefilter/filtered": 1,
    "finish_reason": "finished",
    "finish_time": "2017-07-12 15:09:02",
    "item_scraped_count": 100,
    "log_count/DEBUG": 112,
    "log_count/INFO": 8,
    "memusage/max": 52510720,
    "memusage/startup": 52510720,
    "request_depth_max": 10,
    "response_received_count": 11,
    "scheduler/dequeued": 10,
    "scheduler/dequeued/memory": 10,
    "scheduler/enqueued": 10,
    "scheduler/enqueued/memory": 10,
    "start_time": "2017-07-12 15:08:56"
  },
  "spider_name": "quotes"
}

这里省略了items绝大部分。status显示了爬取的状态,items部分是Scrapy项目的爬取结果,items_dropped是被忽略的Item列表,stats是爬取结果的统计情况。此结果和直接运行Scrapy项目得到的统计是相同的。

这样一来,我们就通过HTTP接口调度Scrapy项目并获取爬取结果,如果Scrapy项目部署在服务器上,我们可以通过开启一个Scrapyrt服务实现任务的调度并直接取到爬取结果,这很方便。

五、POST请求

除了GET请求,我们还可以通过POST请求来请求Scrapyrt。但是此处Request Body必须是一个合法的JSON配置,在JSON里面可以配置相应的参数,支持的配置参数更多。

目前,JSON配置支持如下参数。

  • spider_name:Spider名称,字符串类型,必传参数。如果传递的Spider名称不存在,则返回404错误。
  • max_requests:最大请求数量,数值类型,可选参数。它定义了Scrapy执行请求的Request的最大限制,如定义为5,则表示最多只执行5次Request请求,其余的则会被忽略。
  • request:Request配置,JSON对象,必传参数。通过该参数可以定义Request的各个参数,必须指定url字段来指定爬取链接,其他字段可选。

我们看一个JSON配置实例,如下所示:

{
    "request": {
        "url": "http://quotes.toscrape.com/",
        "callback": "parse",
        "dont_filter": "True",
        "cookies": {
            "foo": "bar"
        }
    },
    "max_requests": 2,
    "spider_name": "quotes"
}

我们执行如下命令,传递该JSON配置并发起POST请求:

curl http://localhost:9080/crawl.json -d '{"request": {"url": "http://quotes.toscrape.com/", "dont_filter": "True", "callback": "parse", "cookies": {"foo": "bar"}}, "max_requests": 2, "spider_name": "quotes"}'

运行结果和上文类似,同样是输出了爬取状态、结果、统计信息等内容。

六、结语

以上内容便是Scrapyrt的相关用法介绍。通过它,我们方便地调度Scrapy项目的运行并获取爬取结果。更多的使用方法可以参考官方文档:http://scrapyrt.readthedocs.io。

原文发布于微信公众号 - 进击的Coder(FightingCoder)

原文发表时间:2018-05-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

分分钟学会用python爬取心目中的女神——Scrapy

原文网址:http://www.cnblogs.com/wanghzh/p/5824181.html

903
来自专栏FreeBuf

Firefox信息泄漏漏洞的技术分析(CVE-2018-12387)

研究发现,JavaScript JIT编辑器中的Array.prototype.push有多个存在安全问题的参数,而这些参数共同导致了这个信息泄漏漏洞的出现。这...

1293
来自专栏崔庆才的专栏

分布式爬虫原理之Scrapy分布式实现

3786
来自专栏算法修养

Flask 学习篇二:学习Flask过程中的记录

Flask学习笔记: GitHub上面的Flask实践项目 https://github.com/SilentCC/FlaskWeb 1.Applicati...

3169
来自专栏北京马哥教育

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖...

40511
来自专栏简书专栏

基于Scrapy爬取伯乐在线网站

标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 2018年7月20日笔记 Scrapy官方文档网址:https://doc.scrap...

3385
来自专栏编程

小白爬虫之爬虫快跑,多进程和多线程

使用多线程时好像在目录切换的问题上存在问题,可以给线程加个锁试试 Hello 大家好!我又来了。 你是不是发现下载图片速度特别慢、难以忍受啊!对于这种问题 一般...

1967
来自专栏Python小屋

Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文

大宗师是著名网络小说作家蛇从革的系列作品“宜昌鬼事”之一,在天涯论坛具有超级高的访问量。这个长篇小说于2015年3月17日开篇,并于2016年12月29日大结局...

3405
来自专栏腾讯NEXT学位

JavaScript Worker 另类玩法

1143
来自专栏用户2442861的专栏

python multiprocessing dummy Pool 使用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haluoluo211/article/d...

2612

扫码关注云+社区