专栏首页进击的Coder分布式爬虫的部署之Scrapyd分布式部署

分布式爬虫的部署之Scrapyd分布式部署

分布式爬虫完成并可以成功运行了,但是有个环节非常烦琐,那就是代码部署。

我们设想下面的几个场景。

  • 如果采用上传文件的方式部署代码,我们首先将代码压缩,然后采用SFTP或FTP的方式将文件上传到服务器,之后再连接服务器将文件解压,每个服务器都需要这样配置。
  • 如果采用Git同步的方式部署代码,我们可以先把代码Push到某个Git仓库里,然后再远程连接各台主机执行Pull操作,同步代码,每个服务器同样需要做一次操作。

如果代码突然有更新,那我们必须更新每个服务器,而且万一哪台主机的版本没控制好,这可能会影响整体的分布式爬取状况。

所以我们需要一个更方便的工具来部署Scrapy项目,如果可以省去一遍遍逐个登录服务器部署的操作,那将会方便很多。

本节我们就来看看提供分布式部署的工具Scrapyd。

一、了解Scrapyd

Scrapyd是一个运行Scrapy爬虫的服务程序,它提供一系列HTTP接口来帮助我们部署、启动、停止、删除爬虫程序。Scrapyd支持版本管理,同时还可以管理多个爬虫任务,利用它我们可以非常方便地完成Scrapy爬虫项目的部署任务调度。

二、准备工作

请确保本机或服务器已经正确安装好了Scrapyd。

三、访问Scrapyd

安装并运行Scrapyd之后,我们就可以访问服务器的6800端口,看到一个WebUI页面。例如我的服务器地址为120.27.34.25,那么我就可以在本地的浏览器中打开:http://120.27.34.25:6800,就可以看到Scrapyd的首页。这里可以替换成你的服务器地址,如下图所示

成功访问到此页面,则Scrapyd配置就没有问题。

四、Scrapyd的功能

Scrapyd提供了一系列HTTP接口来实现各种操作。在这里以Scrapyd所在的IP地址120.27.34.25为例,我们可以将接口的功能梳理一下。

1. daemonstatus.json

这个接口负责查看Scrapyd当前的服务和任务状态。我们可以用curl命令来请求这个接口,命令如下:

curl http://139.217.26.30:6800/daemonstatus.json

我们就会得到如下结果:

{"status": "ok", "finished": 90, "running": 9, "node_name": "datacrawl-vm", "pending": 0}

返回结果是JSON字符串,status是当前运行状态,finished代表当前已经完成的Scrapy任务,running代表正在运行的Scrapy任务,pending代表等待被调度的Scrapyd任务,node_name就是主机的名称。

2. addversion.json

这个接口主要是用来部署Scrapy项目用的。我们首先将项目打包成Egg文件,然后传入项目名称和部署版本。

我们可以用如下的方式实现项目部署:

curl http://120.27.34.25:6800/addversion.json -F project=wenbo -F version=first -F egg=@weibo.egg

在这里, -F 代表添加一个参数,同时我们还需要将项目打包成Egg文件放到本地。

发出请求之后,我们可以得到如下结果:

{"status": "ok", "spiders": 3}

这个结果表明部署成功,并且Spider的数量为3。

此部署方法可能比较烦琐,后文会介绍更方便的工具来实现项目的部署。

3. schedule.json

这个接口负责调度已部署好的Scrapy项目运行。

我们可以用如下接口实现任务调度:

curl http://120.27.34.25:6800/schedule.json -d project=weibo -d spider=weibocn

这里需要传入两个参数,project即Scrapy项目名称,spider即Spider名称。

返回结果如下:

{"status": "ok", "jobid": "6487ec79947edab326d6db28a2d86511e8247444"}

status代表Scrapy项目启动情况,jobid代表当前正在运行的爬取任务代号。

4. cancel.json

这个接口可以用来取消某个爬取任务。如果这个任务是pending状态,那么它将会被移除;如果这个任务是running状态,那么它将会被终止。

我们可以用下面的命令来取消任务的运行:

curl http://120.27.34.25:6800/cancel.json -d project=weibo -d job=6487ec79947edab326d6db28a2d86511e8247444

这里需要传入两个参数,project即项目名称,job即爬取任务代号。

返回结果如下:

{"status": "ok", "prevstate": "running"}

status代表请求执行情况,prevstate代表之前的运行状态。

5. listprojects.json

这个接口用来列出部署到Scrapyd服务上的所有项目描述。

我们可以用如下命令来获取Scrapyd服务器上的所有项目描述:

curl http://120.27.34.25:6800/listprojects.json

这里不需要传入任何参数。

返回结果如下:

{"status": "ok", "projects": ["weibo", "zhihu"]}

status代表请求执行情况,projects是项目名称列表。

6. listversions.json

这个接口用来获取某个项目的所有版本号,版本号是按序排列的,最后一个条目是最新的版本号。

我们可以用如下命令来获取项目的版本号:

curl http://120.27.34.25:6800/listversions.json?project=weibo

这里需要一个参数project,即项目的名称。

返回结果如下:

{"status": "ok", "versions": ["v1", "v2"]}

status代表请求执行情况,versions是版本号列表。

7. listspiders.json

这个接口用来获取某个项目最新版本的所有Spider名称。

我们可以用如下命令来获取项目的Spider名称:

curl http://120.27.34.25:6800/listspiders.json?project=weibo

这里需要一个参数project,即项目的名称。

返回结果如下:

{"status": "ok", "spiders": ["weibocn"]}

status代表请求执行情况,spiders是Spider名称列表。

8. listjobs.json

这个接口用来获取某个项目当前运行的所有任务详情。

我们可以用如下命令来获取所有任务详情:

curl http://120.27.34.25:6800/listjobs.json?project=weibo

这里需要一个参数project,即项目的名称。

返回结果如下:

{"status": "ok",
 "pending": [{"id": "78391cc0fcaf11e1b0090800272a6d06", "spider": "weibocn"}],
 "running": [{"id": "422e608f9f28cef127b3d5ef93fe9399", "spider": "weibocn", "start_time": "2017-07-12 10:14:03.594664"}],
 "finished": [{"id": "2f16646cfcaf11e1b0090800272a6d06", "spider": "weibocn", "start_time": "2017-07-12 10:14:03.594664", "end_time": "2017-07-12 10:24:03.594664"}]}

status代表请求执行情况,pendings代表当前正在等待的任务,running代表当前正在运行的任务,finished代表已经完成的任务。

9. delversion.json

这个接口用来删除项目的某个版本。

我们可以用如下命令来删除项目版本:

curl http://120.27.34.25:6800/delversion.json -d project=weibo -d version=v1

这里需要一个参数project,即项目的名称,还需要一个参数version,即项目的版本。

返回结果如下:

{"status": "ok"}

status代表请求执行情况,这样就表示删除成功了。

10. delproject.json

这个接口用来删除某个项目。

我们可以用如下命令来删除某个项目:

curl http://120.27.34.25:6800/delproject.json -d project=weibo

这里需要一个参数project,即项目的名称。

返回结果如下:

{"status": "ok"}

status代表请求执行情况,这样就表示删除成功了。

以上接口是Scrapyd所有的接口。我们可以直接请求HTTP接口,即可控制项目的部署、启动、运行等操作。

五、Scrapyd API的使用

以上的这些接口可能使用起来还不是很方便。没关系,还有一个Scrapyd API库对这些接口做了一层封装,其安装方式可以参考第1章的内容。

下面我们来看看Scrapyd API的使用方法。Scrapyd API的核心原理和HTTP接口请求方式并无二致,只不过Python封装后的库使用起来更加便捷。

我们可以用如下方式建立一个Scrapyd API对象:

from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://120.27.34.25:6800')

调用它的方法来实现对应接口的操作,例如部署的操作可以使用如下方式:

egg = open('weibo.egg', 'rb')
scrapyd.add_version('weibo', 'v1', egg)

这样我们就可以将项目打包为Egg文件,然后把本地打包的的Egg项目部署到远程Scrapyd。

另外,Scrapyd API还实现了所有Scrapyd提供的API接口,名称都是相同的,参数也是相同的。

例如,调用list_projects()方法即可列出Scrapyd中所有已部署的项目:

scrapyd.list_projects()
['weibo', 'zhihu']

还有其他的方法在此不一一列举了,名称和参数都是相同的。更加详细的操作可以参考官方文档:http://python-scrapyd-api.readthedocs.io/。

六、结语

本节介绍了Scrapyd及Scrapyd API的相关用法,我们可以通过它来部署项目,并通过HTTP接口控制任务的运行。不过部署过程有一点不方便,项目需要先打包Egg文件然后再上传,这样比较烦琐。在下一节,我们介绍一个更加方便的工具来完成部署过程。

本文分享自微信公众号 - 进击的Coder(FightingCoder),作者:崔庆才

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • cookie 免密登录了解一下

    我们都知道 HTTP 是无状态的,用户每次打开 web 页面时,服务器都打开新的会话,而且服务器也不会自动维护客户的上下文信息,那么服务器是怎么识别用户的呢?

    崔庆才
  • 让我大吃一堑的前后分离 web 站模拟登录

    scrapy 模拟登录相信大家都会,而且非常的熟练。但是技术一直在进步(尤其是前端领域),近几年前后端分离的趋势越来越明显,很多 web 站都采用前后端分离的技...

    崔庆才
  • Bash 脚本 set 命令教程

    崔庆才
  • 性能基础之浅谈常见接口性能压测

    目前我们接触到RPC接口主要有Hession、Dubbo、HTTP、Thrift、Hprose等

    高楼Zee
  • Yapi cross-request支持文件上传的解决方案

    chrome 在 73 版本后,限制了 content-script 跨域请求目前只有一个解决办法,废弃 content-script 跨域请求,使用backg...

    咻咻ing
  • electron环境搭建和使用

    Electron 是由 Github开发的开源框架 它允许开发者使用Web技术构建跨平台的桌面应用 Electron = Chromium + Node.js ...

    小周sri的码农
  • 【设计模式-中介者模式】

    【导读】在信息高速发展的时代,估计很多朋友都记不住别人的号码,这个时候就需要一个“通讯录”来存储号码,这个通讯录就是中介者。

    Liusy
  • 走进webpack(3)-- 小结

      写这一系列的文章,本意是想要梳理一下自己凌乱的webpack知识,只是使用过vue-cli,修改过其中的一部分代码,但是对于一个简单项目从0开始搭建webp...

    zaking
  • 【业务架构】价值链分析的直接指南

    你公司的竞争优势是什么?价值主张有助于企业识别出它与竞争对手的区别。但你如何判断你的商业活动是否为客户创造了最大的价值和巨大的利润率呢?

    首席架构师智库
  • 加入云计算成本优化策略的6个长期计划

    短期成本管理工具是减少云计算成本的一种方法,但要保持正常运行,企业还需要长期策略来消除不必要的云计算成本。

    静一

扫码关注云+社区

领取腾讯云代金券