首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Scrapy爬虫教程五 爬虫部署

现在使用Scrapy进行爬取数据已经轻车熟路了,那这篇文章中就讲述了一下将爬虫部署到生产环境中。scrapy官方提供了爬虫管理工具scrapyd来方便的部署爬虫。

操作环境:

Python 3.6.3

pip 9.0.1

curl 7.57.0

一.scrapyd1.1使用scrapyd的好处?

最大的好处就是方便使用,我们可以使用它来方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。

1.2.scrapyd工作原理

当在一个服务器上安装并运行scrapyd服务的时候,scrapyd会以守护进程的形式来监听爬虫的运行和请求,然后启动进程来执行爬虫程序。

1.3.scrapyd的使用

1.3.1 scrapyd安装

pip install scrapyd

1.3.2 scrapyd启动

在命令行中敲入以下命令

scrapyd

启动之后的是这样的:

scrapyd 也提供了 web 的接口。方便我们查看和管理爬虫程序。默认情况下 scrapyd 监听 6800 端口,运行 scrapyd 后。在本机上使用浏览器访问http://localhost:6800/地址即可查看到当前可以运行的项目。

二.项目部署

使用scrapyd-client提供的scrapyd-deploy工具进行部署

2.1 原理

scrapyd 是运行在服务器端,而 scrapyd-client 是运行在客户端。客户端使用 scrapyd-client 通过调用 scrapyd 的 json 接口来部署爬虫项目。

2.2 scrapyd-client安装

在命令行中敲入以下命令

pip install scrapyd-client

2.3配置项目的服务器信息

修改工程目录下的scrapy.cfg文件

如果你的服务器上有配置HTTP basic authentication验证的话,那么还需要配置用户名和密 码用来登录服务器

# -*- coding: utf-8 -*-

# Automatically created by: scrapy startproject

#

# For more information about the [deploy] section see:

# https://scrapyd.readthedocs.org/en/latest/deploy.html

[settings]default = speechspider.settings

[deploy:server] #为服务器指定的一个名字 这里我指定为server

url = http://localhost:6800/ #部署项目的服务器地址,现在把项目部署到本地,如果部署到其他机器上就需要更改ip

project = speechspider # speechspider为工程名称

username = *******

password = *******

2.4部署爬虫程序

在爬虫根目录下运行以下命令:

scrapyd-deploy -p

target为上一步在配置文件中配置的服务器名称,project为项目名称,拿我这个爬虫程序部署为例,执行的命令如下:

scrapyd-deploy server -p speechspider

部署操作会打包你的当前项目,如果当前项目下有setup.py文件,就会使用它当中的配置,没有就会自动创建一个。(如果后期项目需要打包的话,可以根据自己的需要修改里面的信息,也可以暂时不管它). 从返回的结果里面,我们可以看到部署的状态,项目名称,版本号和爬虫个数,以及当前的主机名称.

运行结果如下:

使用以下命令查看部署结果:

scrapyd-deploy -L 服务器名称

$ scrapyd-deploy -L server

speechspider

default

刷新http://localhost:6800/页面, 也可以看到Available projects:speechspider, default的字样。

三.使用API管理爬虫

scrapyd 的 web 界面比较简单,主要用于监控,所有的调度工作全部依靠接口实现。官方推荐使用 curl 来管理爬虫。

3.1 安装curl

windows 用户可以到该网站https://curl.haxx.se/download.html下载 curl 安装包进行安装。

ubuntu/Mac 用户直接使用命令行安装即可。

3.2 开启爬虫schedule

在项目根目录下运行以下命令来开启爬虫:

3.3 取消爬虫

3.4 列出项目

3.5 列出爬虫、版本、job 信息

3.6 删除爬虫项目

好了,爬虫程序的部署和使用API管理就介绍到这里。

简书中相应的文章在持续更新中。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171219G071KT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券