搭建 PySpider 爬虫服务

腾讯云提供了开发者实验室教你搭建 PySpider 爬虫服务,教程内容如下,用户可以点击开发者实验室快速上机完成实验。

环境准备

任务时间:5min ~ 10min

前置环境部署

在开始部署前,我们需要做一些前置准备。

yum 更新

yum update -y

安装开发编译工具

yum install gcc gcc-c++ -y

安装依赖库

yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y

升级pip

pip install --upgrade pip

该步骤可选,但为了部署的稳定性,推荐执行

该步骤耗时可能较长(5~10min),请耐心等待

部署 mariadb

任务时间:10min ~ 20min

由于 CentOS 7 中 MySQL 数据库已从默认的程序列表中移除,我们使用 mariadb 代替。

安装 mariadb

yum install mariadb-server mariadb -y

启动 mariadb 服务

systemctl start mariadb

设置 root 密码

默认的root用户密码为空,你可以使用以下命令来创建 root 用户的密码:

(该步骤也可以跳过,password 后的 Password 可以改为任何你希望设置的密码)

mysqladmin -u root password "Password"

检查是否安装成功

现在你可以尝试通过以下命令来连接到 Mysql 服务器

mysql -u root -p

然后输入您刚才设置的密码 ( 默认:Password ),如果一切正常,您应该可以在命令行看到以 MariaDB [(none)]>mysql> 开头的提示了,说明连接成功。

此时输入 SHOW DATABASES; 并回车,应该可以看到类似下面这样的输出,说明一切正常。

mysql> SHOW DATABASES;
+----------+
| Database |
+----------+
| mysql    |
| test     |
+----------+
2 rows in set (0.13 sec)

完成后,可以通过快捷键 Ctrl+C 或命令行键入 exit 来退出,进入下一步。

如果您未设置密码,直接使用 mysql 即可

部署 redis

任务时间:10min ~ 20min

下载、解压安装包

下载安装包

wget http://download.redis.io/redis-stable.tar.gz

解压安装包

tar -xzvf redis-stable.tar.gz

移动解压包到 /usr/local 内

mv redis-stable /usr/local/redis

编译安装

cd /usr/local/redis
make
make install

设置 redis 配置

设置配置文件路径

mkdir -p /etc/redis
cp /usr/local/redis/redis.conf /etc/redis/redis.conf

修改 /etc/redis/redis.conf 文件的 daemonize 配置项为如下:

daemonize yes

启动 redis 服务

/usr/local/bin/redis-server /etc/redis/redis.conf

部署 pyspider

任务时间:10min ~ 20min

安装依赖

pip install --upgrade chardet
easy_install mysql-connector==2.1.3
easy_install redis

安装 pyspider

pip install pyspider

配置 pyspider

首先创建配置目录

mkdir /etc/pyspider

然后 /etc/pyspider 目录下创建 pyspider.conf.json,参考下面的内容。

具体配置的说明文档请参考 官方文档

示例代码:/etc/pyspider/pyspider.conf.json
{
  "taskdb": "mysql+taskdb://root:Password@127.0.0.1:3306/taskdb",
  "projectdb": "mysql+projectdb://root:Password@127.0.0.1:3306/projectdb",
  "resultdb": "mysql+resultdb://root:Password@127.0.0.1:3306/resultdb",
  "message_queue": "redis://127.0.0.1:6379/db",
  "webui": {
    "username": "root",
    "password": "Password",
    "need-auth": true
  }
}

其中 mysql 配置中的 root 为您 mysql 的用户名, root: 后面的 Password 为您刚设置的密码。

webui 配置中的 username 及 password 为您访问 WebUI 时候需要的用户名,你也可以不设置用户名密码,直接将 need-auth 设为 false 即可。

启动服务

pyspider -c /etc/pyspider/pyspider.conf.json

如果一切正常,现在访问 http://<您的 CVM IP 地址>:5000,您应该可以看到 pyspider dashboard 的首页了。

服务能够正常启动后,我们需要让它能够在后台运行,您可以通过以下命令让服务在后台运行

nohup pyspider -c /etc/pyspider/pyspider.conf.json &

也可以使用官方推荐的 Supervisor 来启动,这里就不详细介绍了,具体用法可以参考 Supervisor 的文档

部署完成

任务时间:1min ~ 2min

访问服务

此时您可以访问 http://<您的 CVM IP 地址>:5000 使用您的爬虫来搜集数据了,具体 pyspider 爬虫脚本的编写及使用教程可以参考 网上资料

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏C/C++基础

GitHub Desktop常见用法

这里记录我使用git的点滴,以需要完成的功能为切入点来讲解需要使用的命令,供日后参考,当然再结合“git命令大全”这类较全面的git命令介绍的文章,会更好的熟悉...

1433
来自专栏鬼谷君

mysql 主从复制

Mysql的复制是一个异步复制的过程,从一个主(master)的复制到另一个备(salve)的。在主备之间实现复制过程主要有三个线程来完成,其中两个线程(sql...

1565
来自专栏散尽浮华

Gitlab上采用rpm方式快速安装的操作记录

之前梳理了一篇Gitlab的安装CI持续集成系统环境---部署Gitlab环境完整记录,但是这是bitnami一键安装的,版本比较老。下面介绍使用rpm包安装G...

2435
来自专栏电光石火

python3和python2共存

特别说明,本文是在Windows64位系统下进行的,32位系统请下载相应版本的安装包,安装方法类似。 使用python开发,环境有Python2和 py...

2018
来自专栏向治洪

gitlab操作指南

概述 GitLab是利用 Ruby on Rails 一个开源的版本管理系统,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目。它拥有...

30310
来自专栏云计算教程系列

如何在CentOS 7上使用Etckeeper进行版本控制管理/ etc

在Linux生态系统中,必须定期安装,维护和升级软件。但是,仍然需要跟踪对本地配置文件所做的更改。与在进行更改之前制作配置文件副本的旧备用数据库相反,etcke...

1211
来自专栏L宝宝聊IT

Nagios监控系统应用示例

1596
来自专栏前端小叙

微信开发本地服务器映射外网服务器步骤顺序

1.这里推荐 http://ngrok.ciqiuwl.cn/  可以使用,ngrok官网的连接失败,据说是被墙了 2.在微信平台把相关信息填写好,暂时不提交(...

3378
来自专栏進无尽的文章

代码管理| 本地Git仓库和远程仓库的创建及关联

顺便说一下:Github账号创建私人项目的话需要付费,可以在码云上面创建个人私有仓库,是免费的。

8472
来自专栏电光石火

python3和python2共存

特别说明,本文是在Windows64位系统下进行的,32位系统请下载相应版本的安装包,安装方法类似。

2186

扫码关注云+社区