专栏首页程序员的碎碎念云上部署Python3爬虫--以腾讯云+Ubuntu为例
原创

云上部署Python3爬虫--以腾讯云+Ubuntu为例

Album

提示


以鄙人在GitHub上的辣鸡代码为例, 其他Scrapy的项目类似

本文同样适用于不使用云服务器的情形

前期准备(也可以到腾讯云开发者实验室体验)


1. 购买云服务器

选择一家云服务厂商, 购买云服务器, 目前国内主流服务均有提供学生版

如果第一次购买, 可以戳这个链接(逃 云服务器首购优惠

2. 下载Xshell, 使用ssh连接服务器

Xshell学生和家用是免费的, 下载地址http://www.netsarang.com/download/free_license.html

下载安装完成后, 使用系统分配的公网IP, 系统用户名和对应密码连接服务器.

在Github上克隆代码


git clone https://github.com/FesonX/JobCrawler.git

安装相关依赖


1. 安装Python3

项目使用Python3.6, 可以使用以下连接安装, 将文中的3.5改为3.6即可.

ubuntu14.04安装python3.5并且将其设置为python3默认启动

2. 使用virtualenv(也可以使用Anaconda或Pycharm管理)

Virtualenv允许多版本Python同时在电脑上共存, 安装完Python3及pip后

终端键入

# 安装
pip3 install virtualenv
# 创建虚拟环境
virtualenv spider-env
# 激活虚拟环境
source spider-env/bin/activate
# 退出
deactivate

3. 安装库依赖

因为Scrapy依赖Python.h,在安装库依赖前在终端键入

 sudo apt-get install libpython3.6-dev

然后安装依赖, 如果失败, 请逐条尝试

# 在JobCrawler/JobCrawler目录下
pip install -r requirements.txt

4. 安装MongoDB

参照以下连接安装

Install MongoDB Community Edition

运行爬虫

终端cd到项目根目录, 键入

# -o job.csv为可选参数, 加入则输出到指定文件中
scrapy crawl jobCrawler -o job.csv

扩展: 使爬虫开机运行


使爬虫在系统开机时自动运行, 对于许多系统来说,最简单 (如果不是最好的)的方式是使用rc.local文件

具体实现方式就交由你自己用搜索引擎探索啦


欢迎关注我的腾讯云社区账号

FesonX

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 区块链可以减少社会不平等吗?

    在世界范围内, 没有其他技术可以在如此短的时间内引发全球的热潮. 就在十年前, 中本聪(Satoshi Nakamoto)制定了经过加密的安全链块如何应用于数字...

    FesonX
  • 分析DAO的漏洞

    我敢肯定每个人都听说过有关DAO被一个黑客利用递归以太坊发送漏洞截获1.5亿美元的重大新闻。

    FesonX
  • 我编写了一个应用程序来告诉你区块链是如何运作的

    为了演示一个区块链, 我们将使用一个名为Blockchain CLI的开源命令行界面.

    FesonX
  • memcached

    Mister24
  • EhCache和memcached介绍

    EhCache 是一个纯Java的进程内缓存框架,具有快速、精干等特点,是Hibernate中默认的CacheProvider。 Ehcache是一种广泛使用的...

    用户1220053
  • Jenkins实战(一):Jenkins入门及安装

    Jenkins对于开发者而言,应该不会陌生。在软件开发、部署阶段,为了实现自动化,大家都会首选Jenkins工具来完成构建自动化,是开发中不可缺少的一部分。本系...

    xcbeyond
  • Jenkins安装与配置(Flask+Gunicorn及React)

    结合我们822实验室开源的图像处理平台(http://822lab.top)介绍Jenkins安装与配置(Flask+Gunicorn及React),供后续学弟...

    刘开心_1266679
  • LINUX下的PHP

    由于linux系统的稳定性,大部分的PHP服务器都被部署在linux上,而且像redis等扩展在linux能得到更好的支持,所以对于PHP程序员来说,使用lin...

    枕边书
  • 个人独立博客搭建教程(win),如何快速搭建博客

    WordPress是使用PHP语言开发的博客平台,用户可以在支持PHP和MySQL数据库的服务器上架设属于自己的网站。全球约34%的网站都在用WordPress...

    zeruns
  • 如何在CentOS 7上使用Packetbeat和ELK收集基础结构指标

    介绍 Packetbeat允许您监视应用级协议(如HTTP和MySQL)以及DNS和其他服务的实时网络流量。 要执行此操作,请在客户端计算机上配置代理,称...

    shaonbean

扫码关注云+社区

领取腾讯云代金券