云上部署Python3爬虫--以腾讯云+Ubuntu为例

Album

提示


以鄙人在GitHub上的辣鸡代码为例, 其他Scrapy的项目类似

本文同样适用于不使用云服务器的情形

前期准备(也可以到腾讯云开发者实验室体验)


1. 购买云服务器

选择一家云服务厂商, 购买云服务器, 目前国内主流服务均有提供学生版

如果第一次购买, 可以戳这个链接(逃 云服务器首购优惠

2. 下载Xshell, 使用ssh连接服务器

Xshell学生和家用是免费的, 下载地址http://www.netsarang.com/download/free_license.html

下载安装完成后, 使用系统分配的公网IP, 系统用户名和对应密码连接服务器.

在Github上克隆代码


git clone https://github.com/FesonX/JobCrawler.git

安装相关依赖


1. 安装Python3

项目使用Python3.6, 可以使用以下连接安装, 将文中的3.5改为3.6即可.

ubuntu14.04安装python3.5并且将其设置为python3默认启动

2. 使用virtualenv(也可以使用Anaconda或Pycharm管理)

Virtualenv允许多版本Python同时在电脑上共存, 安装完Python3及pip后

终端键入

# 安装
pip3 install virtualenv
# 创建虚拟环境
virtualenv spider-env
# 激活虚拟环境
source spider-env/bin/activate
# 退出
deactivate

3. 安装库依赖

因为Scrapy依赖Python.h,在安装库依赖前在终端键入

 sudo apt-get install libpython3.6-dev

然后安装依赖, 如果失败, 请逐条尝试

# 在JobCrawler/JobCrawler目录下
pip install -r requirements.txt

4. 安装MongoDB

参照以下连接安装

Install MongoDB Community Edition

运行爬虫

终端cd到项目根目录, 键入

# -o job.csv为可选参数, 加入则输出到指定文件中
scrapy crawl jobCrawler -o job.csv

扩展: 使爬虫开机运行


使爬虫在系统开机时自动运行, 对于许多系统来说,最简单 (如果不是最好的)的方式是使用rc.local文件

具体实现方式就交由你自己用搜索引擎探索啦


欢迎关注我的腾讯云社区账号

FesonX

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏idealclover的填坑日常

Hyperledger Fabric环境搭建

安装Docker的方法有多种,使用apt-get安装的版本较低。一些教程上的安装方法不适合国内环境

52620
来自专栏自由而无用的灵魂的碎碎念

实战解决使用ghost安装系统出现的各种问题

昨天使用ghost给人安装系统时,把另一个分区的数据都搞没了,安装完也只剩下一个分区,相信了解的同志们知道是什么原因。

16530
来自专栏FreeBuf

打狗棒法之:Cknife(C刀)自定义模式秒过安全狗

免责声明:本站提供安全工具、程序(方法)可能带有攻击性,仅供安全研究与教学之用,风险自负! 0x00 前言 很多朋友在使用Cknife时都误以为她只是菜刀的跨平...

40380
来自专栏腾讯云TStack专栏

惊!Docker竟有这些不为人知的bug

| 作者简介 ? | Docker容器生成僵尸进程 现象 公司开发服务器上使用Docker跑了几个容器,这些容器都是长时间运行的。偶然发现服务器上有大量僵尸进...

1.1K10
来自专栏杨建荣的学习笔记

从零开始搭建Nginx和Tomcat的web集群环境

一直以来对于web服务器对tomcat还是很熟悉了,但是很对于nginx还是有些陌生,一看到nginx的配置就让人有一种莫名的排斥,这就是对于陌生的恐惧,我们今...

40650
来自专栏网络

从零开始搭建Nginx和Tomcat的web集群环境

一直以来对于web服务器对tomcat还是很熟悉了,但是很对于nginx还是有些陌生,一看到nginx的配置就让人有一种莫名的排斥,这就是对于陌生的恐惧,我们今...

24170
来自专栏程序员的知识天地

总结Django一些开发经验

最喜欢的还是 Django 的 ORM 框架。公司的项目都是前后分离的,使用 Django 做后端接口开发还是很高效的。

21310
来自专栏张戈的专栏

Linux下巧用chattr、watch命令的实例

一、起因 前些日子,张戈在日志备份服务器加入了日志压缩的计划任务(详见服务器日志备份超节省空间的思路),结果发现监控总是发来 tar 的报警,提示存在 tar ...

37880
来自专栏生信技能树

R包终极解决方案

写在前面: 在如何通过Google来使用ggplot2可视化这篇文章中,我们曾经介绍过R语言在生物信息学中的重要性。 这篇文章也激发了很多小伙伴学习的热情。学习...

81570
来自专栏北京马哥教育

手把手教你用永恒之蓝(Eternalblue)勒索病毒漏洞的高阶用法

? 作者:7sDream 来源: https://www.zybuluo.com/7sDream/note/729295 安装 MSF Linux & Ma...

54080

扫码关注云+社区

领取腾讯云代金券